Категоризация строк — это когда у вас столбец с произвольным текстом (расходы, обращения, товары), а рядом нужен столбец с понятной меткой. Раньше это делал человек глазами, теперь черновую разметку берёт на себя языковая модель. Весь фокус в одном хорошем промпте: вы один раз описываете категории и правила, дальше прогоняете через шаблон любой объём строк. Разберу, как такой промпт собрать и где он спотыкается.
Суть задачи
Чтобы модель разложила строки по категориям без ошибок, дайте ей три вещи: закрытый список категорий с описанием каждой, по два-три примера на категорию и явное правило для случая, когда строка подходит сразу под несколько. Просите вернуть только метку, прогоняйте партиями по 30-50 строк и сверяйте первую сотню вручную. Спорные строки модель помечает отдельно, чтобы вы разобрали их сами.
Категоризация выглядит просто, пока строк десяток. На тысяче строк ручная разметка превращается в день монотонной работы, где к вечеру глаз замыливается и метки начинают плыть. Знакомая картина: бухгалтер вручную проставляет статью расхода каждой транзакции, менеджер раскидывает обращения клиентов по темам, маркетолог сортирует товары по группам. Везде один и тот же механический труд.
Языковая модель читает текст строки и подбирает подходящую метку из вашего списка — ровно то, что делает человек, только за секунды и без усталости. Качество тут зависит почти целиком от промпта. Расплывчатые категории дают расплывчатый результат, чёткие границы дают чёткую разметку. Поэтому основная работа уходит на формулировку, а сам прогон занимает минуты.
Важно держать рамку: модель готовит черновую разметку, а финальную ответственность держите вы. На строках, где смысл очевиден, она почти безошибочна. На пограничных формулировках ошибается, и эти случаи стоит вылавливать заранее вместо слепого доверия результату.
- Расходы и транзакции по статьям бюджета для управленческого учёта
- Обращения клиентов по темам: оплата, доставка, возврат, технический вопрос
- Товары и позиции по группам каталога для маркетплейса
- Резюме и заявки по направлениям, отзывы по тональности и теме
Структура промпта
Рабочий промпт состоит из четырёх частей, и пропуск любой из них роняет качество. Сначала вы задаёте роль и задачу, затем закрытый список категорий с описанием, после примеры разметки, и в конце правило для спорных строк и формат ответа. Закрытый список здесь ключевой момент: без него модель изобретает новые категории на ходу, и сводка рассыпается.
- Опишите задачу одной фразой: отнести каждую строку к одной категории из списка ниже
- Перечислите категории закрытым списком, каждой дайте короткое описание границы
- Добавьте по два-три примера строк с правильной меткой для каждой категории
- Задайте правило для спорных случаев: какую категорию выбирать или ставить метку «спорное»
- Укажите формат ответа: вернуть только метку категории, без рассуждений и пояснений
- Прогоните 30 строк, сверьте с тем, как разметили бы сами, поправьте описания категорий
Дайте модели категорию «спорное» или «прочее» и прямое указание относить туда строки, где уверенности маловато. Так модель перестаёт угадывать наобум, а честно складывает сомнительные случаи в отдельную кучу. Вы разбираете только эту кучу вручную, а остальное принимаете пачкой. Это экономит больше всего времени на проверке.
Инструменты и объём
Для разовой задачи на пару сотен строк хватает обычного чата с сильной моделью: вставляете промпт, следом партию строк, забираете размеченный результат. Когда строки идут регулярно и счёт на тысячи, разумнее подключить таблицу напрямую через формулу или связку автоматизации, чтобы метки проставлялись сами. Усложнять стоит только после того, как промпт уже доказал качество на ручных прогонах.
| Объём строк | Чем закрыть | Когда усложнять |
|---|---|---|
| До 200 строк разово | Чат с языковой моделью, промпт плюс партия строк | Усложнение тут лишнее |
| Сотни строк регулярно | Формула с моделью прямо в Google Таблицах | Когда источников несколько и нужна сводка |
| Тысячи строк потоком | Связка автоматизации через n8n с разметкой по расписанию | Когда категории меняются часто и нужен контроль качества |
| Чувствительные данные | Корректный доступ или локальная модель на своём сервере | Когда данные клиентов покидать контур запрещено |
Российский предприниматель упирается в доступ к зарубежным моделям и оплату. Здесь работают и отечественные решения, и зарубежные через корректный доступ — выбор зависит от языка строк и чувствительности данных. Для категоризации внутренних таблиц без персональных данных подходит почти любая сильная модель, а для данных клиентов вопрос доступа решают отдельно.
Стоимость держится в рамках десятков долларов в месяц за подписку, точную цифру сверьте на сайте сервиса — тарифы меняются. Разметка через формулу в таблице тарифицируется по объёму запросов, и на тысячах строк это всё равно копейки против дня ручной работы. Платную автоматизацию подключают позже, когда поток строк делает ручной прогон дороже одной настройки.
Покажу на вашей реальной таблице, как собрать промпт под ваши категории и где разметку стоит автоматизировать. Записаться на бесплатный часовой разбор-созвон можно через раздел с программами.
Частые ошибки
Главная ошибка — расплывчатые категории. Если граница между «доставкой» и «логистикой» размыта в вашей же голове, модель тем более промахнётся. Перед прогоном проверьте описания так, будто их читает новый сотрудник без контекста: понятно ли по описанию, какую строку куда класть. Если непонятно вам, модели тоже непонятно.
Сверьте первую сотню размеченных строк с тем, как разметили бы их сами. Расхождения почти всегда указывают на слабое описание категории или на отсутствие примера для этого случая. Поправьте промпт по живым ошибкам, и точность подскочит. Эта сверка занимает полчаса и окупается на всём дальнейшем объёме.
Вторая ловушка — открытый список категорий. Когда вы пишете «раздели строки по смыслу» без перечня меток, модель сочиняет категории сама, и на тысяче строк их набегает несколько десятков пересекающихся. Сводка из такого месива бесполезна. Всегда давайте закрытый список и запрещайте придумывать новые метки.
- Уверенные галлюцинации: модель ставит метку даже там, где сомневается — лечится категорией «спорное»
- Дрейф формата: модель добавляет пояснения вместо чистой метки — лечится явным правилом ответа
- Слишком крупные партии: на 500 строках за раз качество падает — дробите по 30-50
- Персональные данные в открытом виде: телефоны и имена клиентов отдавайте через корректный доступ
Третья ошибка — слепое доверие после первого удачного прогона. Модель может уверенно поставить неверную метку, и на потоке такие ошибки накапливаются тихо. Держите выборочную проверку: раз в неделю смотрите случайные 20 строк из размеченных. Так вы ловите дрейф качества раньше, чем он испортит отчётность, и спокойно растите объём, удерживая контроль на каждом шаге.
Куда двигаться
Когда промпт для одной таблицы заработал и экономит вам день в неделю, логично перенести подход на соседние задачи. От категоризации расходов вы переходите к разметке обращений, от обращений к группировке товаров. Принцип везде один: закрытый список, примеры, правило для спорного, проверка на старте. Освоив его на одной таблице, вы переносите навык на любую разметку без переучивания.
Следующий шаг — закрепить рабочий промпт как шаблон команды. Вы один раз отлаживаете формулировку, дальше коллеги переиспользуют её каждый день и правят описания категорий под новые случаи сами. Этот навык остаётся с компанией навсегда: даже когда выйдут новые версии моделей, ваша команда уже умеет ставить им задачу и переносит шаблоны без потерь.
Сложность тут в выборе первой таблицы и в том, чтобы команда научилась формулировать категории чётко. Самый частый провал — предприниматель отдаёт модели разметку без закрытого списка, получает кашу из меток и решает, что инструмент бесполезен. На разборе процессов мы вместе смотрим на ваши таблицы и собираем первый промпт, который окупится быстрее всего.