Категоризация строк — это когда у вас столбец с произвольным текстом (расходы, обращения, товары), а рядом нужен столбец с понятной меткой. Раньше это делал человек глазами, теперь черновую разметку берёт на себя языковая модель. Весь фокус в одном хорошем промпте: вы один раз описываете категории и правила, дальше прогоняете через шаблон любой объём строк. Разберу, как такой промпт собрать и где он спотыкается.

Суть задачи

TL;DR

Чтобы модель разложила строки по категориям без ошибок, дайте ей три вещи: закрытый список категорий с описанием каждой, по два-три примера на категорию и явное правило для случая, когда строка подходит сразу под несколько. Просите вернуть только метку, прогоняйте партиями по 30-50 строк и сверяйте первую сотню вручную. Спорные строки модель помечает отдельно, чтобы вы разобрали их сами.

Категоризация выглядит просто, пока строк десяток. На тысяче строк ручная разметка превращается в день монотонной работы, где к вечеру глаз замыливается и метки начинают плыть. Знакомая картина: бухгалтер вручную проставляет статью расхода каждой транзакции, менеджер раскидывает обращения клиентов по темам, маркетолог сортирует товары по группам. Везде один и тот же механический труд.

Языковая модель читает текст строки и подбирает подходящую метку из вашего списка — ровно то, что делает человек, только за секунды и без усталости. Качество тут зависит почти целиком от промпта. Расплывчатые категории дают расплывчатый результат, чёткие границы дают чёткую разметку. Поэтому основная работа уходит на формулировку, а сам прогон занимает минуты.

Важно держать рамку: модель готовит черновую разметку, а финальную ответственность держите вы. На строках, где смысл очевиден, она почти безошибочна. На пограничных формулировках ошибается, и эти случаи стоит вылавливать заранее вместо слепого доверия результату.

  • Расходы и транзакции по статьям бюджета для управленческого учёта
  • Обращения клиентов по темам: оплата, доставка, возврат, технический вопрос
  • Товары и позиции по группам каталога для маркетплейса
  • Резюме и заявки по направлениям, отзывы по тональности и теме

Структура промпта

Рабочий промпт состоит из четырёх частей, и пропуск любой из них роняет качество. Сначала вы задаёте роль и задачу, затем закрытый список категорий с описанием, после примеры разметки, и в конце правило для спорных строк и формат ответа. Закрытый список здесь ключевой момент: без него модель изобретает новые категории на ходу, и сводка рассыпается.

  1. Опишите задачу одной фразой: отнести каждую строку к одной категории из списка ниже
  2. Перечислите категории закрытым списком, каждой дайте короткое описание границы
  3. Добавьте по два-три примера строк с правильной меткой для каждой категории
  4. Задайте правило для спорных случаев: какую категорию выбирать или ставить метку «спорное»
  5. Укажите формат ответа: вернуть только метку категории, без рассуждений и пояснений
  6. Прогоните 30 строк, сверьте с тем, как разметили бы сами, поправьте описания категорий
// Главный приём

Дайте модели категорию «спорное» или «прочее» и прямое указание относить туда строки, где уверенности маловато. Так модель перестаёт угадывать наобум, а честно складывает сомнительные случаи в отдельную кучу. Вы разбираете только эту кучу вручную, а остальное принимаете пачкой. Это экономит больше всего времени на проверке.

Инструменты и объём

Для разовой задачи на пару сотен строк хватает обычного чата с сильной моделью: вставляете промпт, следом партию строк, забираете размеченный результат. Когда строки идут регулярно и счёт на тысячи, разумнее подключить таблицу напрямую через формулу или связку автоматизации, чтобы метки проставлялись сами. Усложнять стоит только после того, как промпт уже доказал качество на ручных прогонах.

Объём строкЧем закрытьКогда усложнять
До 200 строк разовоЧат с языковой моделью, промпт плюс партия строкУсложнение тут лишнее
Сотни строк регулярноФормула с моделью прямо в Google ТаблицахКогда источников несколько и нужна сводка
Тысячи строк потокомСвязка автоматизации через n8n с разметкой по расписаниюКогда категории меняются часто и нужен контроль качества
Чувствительные данныеКорректный доступ или локальная модель на своём сервереКогда данные клиентов покидать контур запрещено

Российский предприниматель упирается в доступ к зарубежным моделям и оплату. Здесь работают и отечественные решения, и зарубежные через корректный доступ — выбор зависит от языка строк и чувствительности данных. Для категоризации внутренних таблиц без персональных данных подходит почти любая сильная модель, а для данных клиентов вопрос доступа решают отдельно.

Стоимость держится в рамках десятков долларов в месяц за подписку, точную цифру сверьте на сайте сервиса — тарифы меняются. Разметка через формулу в таблице тарифицируется по объёму запросов, и на тысячах строк это всё равно копейки против дня ручной работы. Платную автоматизацию подключают позже, когда поток строк делает ручной прогон дороже одной настройки.

● Discovery · 1 час · бесплатно

Покажу на вашей реальной таблице, как собрать промпт под ваши категории и где разметку стоит автоматизировать. Записаться на бесплатный часовой разбор-созвон можно через раздел с программами.

Прийти на Discovery →

Частые ошибки

Главная ошибка — расплывчатые категории. Если граница между «доставкой» и «логистикой» размыта в вашей же голове, модель тем более промахнётся. Перед прогоном проверьте описания так, будто их читает новый сотрудник без контекста: понятно ли по описанию, какую строку куда класть. Если непонятно вам, модели тоже непонятно.

// Что проверять на старте

Сверьте первую сотню размеченных строк с тем, как разметили бы их сами. Расхождения почти всегда указывают на слабое описание категории или на отсутствие примера для этого случая. Поправьте промпт по живым ошибкам, и точность подскочит. Эта сверка занимает полчаса и окупается на всём дальнейшем объёме.

Вторая ловушка — открытый список категорий. Когда вы пишете «раздели строки по смыслу» без перечня меток, модель сочиняет категории сама, и на тысяче строк их набегает несколько десятков пересекающихся. Сводка из такого месива бесполезна. Всегда давайте закрытый список и запрещайте придумывать новые метки.

  • Уверенные галлюцинации: модель ставит метку даже там, где сомневается — лечится категорией «спорное»
  • Дрейф формата: модель добавляет пояснения вместо чистой метки — лечится явным правилом ответа
  • Слишком крупные партии: на 500 строках за раз качество падает — дробите по 30-50
  • Персональные данные в открытом виде: телефоны и имена клиентов отдавайте через корректный доступ

Третья ошибка — слепое доверие после первого удачного прогона. Модель может уверенно поставить неверную метку, и на потоке такие ошибки накапливаются тихо. Держите выборочную проверку: раз в неделю смотрите случайные 20 строк из размеченных. Так вы ловите дрейф качества раньше, чем он испортит отчётность, и спокойно растите объём, удерживая контроль на каждом шаге.

Куда двигаться

Когда промпт для одной таблицы заработал и экономит вам день в неделю, логично перенести подход на соседние задачи. От категоризации расходов вы переходите к разметке обращений, от обращений к группировке товаров. Принцип везде один: закрытый список, примеры, правило для спорного, проверка на старте. Освоив его на одной таблице, вы переносите навык на любую разметку без переучивания.

Следующий шаг — закрепить рабочий промпт как шаблон команды. Вы один раз отлаживаете формулировку, дальше коллеги переиспользуют её каждый день и правят описания категорий под новые случаи сами. Этот навык остаётся с компанией навсегда: даже когда выйдут новые версии моделей, ваша команда уже умеет ставить им задачу и переносит шаблоны без потерь.

Сложность тут в выборе первой таблицы и в том, чтобы команда научилась формулировать категории чётко. Самый частый провал — предприниматель отдаёт модели разметку без закрытого списка, получает кашу из меток и решает, что инструмент бесполезен. На разборе процессов мы вместе смотрим на ваши таблицы и собираем первый промпт, который окупится быстрее всего.

Частые вопросы

Как заставить модель работать только с моими категориями?
Дайте закрытый список меток и прямое правило относить всё непонятное в категорию «спорное» или «прочее». Без перечня категорий модель изобретает их на ходу, и на тысяче строк набегают десятки пересекающихся меток. Закрытый список с описанием границ убирает эту проблему почти полностью.
Сколько строк можно отдавать модели за один раз?
Дробите по 30-50 строк в партию. На крупных пачках вроде 500 строк за раз качество разметки заметно проседает: модель начинает путать метки и терять формат. Партии поменьше идут стабильнее, а через формулу в таблице или автоматизацию объём вообще перестаёт быть проблемой.
Можно ли категоризировать таблицу прямо в Google Таблицах?
Да, через формулу, которая обращается к модели для каждой строки. Это удобно для регулярных задач на сотни строк: метки проставляются сами по мере добавления данных. Для разовой задачи проще вставить партию строк в чат с моделью и забрать готовый результат.
Что делать с персональными данными клиентов в строках?
Телефоны, имена и адреса отдавайте модели через корректный доступ или локальное решение на своём сервере. Часто персональные поля для категоризации вообще лишние: метку определяет текст обращения, а телефон можно убрать из строки перед прогоном. Чувствительность данных решают отдельно от самого промпта.
Насколько точно модель размечает строки?
На строках с очевидным смыслом точность близка к ручной, на пограничных формулировках модель ошибается. Поэтому сверяйте первую сотню строк вручную и держите категорию «спорное» для сомнительных случаев. После настройки промпта по живым ошибкам точность вырастает, а проверка сводится к выборочной.
Сколько стоит такая разметка?
Подписка на сильную модель держится в рамках десятков долларов в месяц, точную сумму сверьте на сайте сервиса. Разметка через формулу тарифицируется по объёму запросов, и на тысячах строк это всё равно копейки против дня ручной работы. Платную автоматизацию подключают позже, когда поток строк это оправдывает.