Грязная таблица съедает время ровно там, где его меньше всего: перед отчётом, выгрузкой в систему, расчётом. Даты в трёх форматах, дубли клиентов, склеенные в одну ячейку имя и телефон. Языковая модель разбирает такой беспорядок за минуты, если дать ей чёткий промпт с правилами нормализации. Ниже разбираю структуру такого запроса и показываю, где он работает, а где подведёт.
Что чистит промпт
Хороший промпт для очистки таблицы описывает три вещи: исходный беспорядок, нужный результат и правила приведения. Модель убирает дубли, сводит даты и числа к одному формату, разносит склеенные поля, заполняет пропуски по понятной логике. Работает это на сотнях строк за раз, на десятках тысяч нужен другой подход. Результат всегда проверяют, потому что модель способна тихо подменить значение.
Типичная грязная выгрузка выглядит так. Дата заказа в одной строке записана как 05.06.2026, в другой как 2026-06-05, в третьей словами. Телефон клиента то с восьмёркой, то с плюс семь, то со скобками. Город написан с опечатками и разным регистром. Один и тот же клиент задвоен из-за лишнего пробела в имени. Руками это разбирают полдня, и каждая правка добавляет новую ошибку.
Языковая модель видит закономерности в таком тексте лучше, чем формула в таблице. Вы описываете словами, что считать дублем и к какому формату приводить дату, модель применяет правило ко всем строкам сразу. Ключ здесь — точность формулировки. Расплывчатый запрос «почисти таблицу» даёт расплывчатый результат, где модель сама решает, что считать мусором, и местами решает неверно.
- Дубли строк: по полному совпадению или по ключевому полю вроде телефона
- Форматы дат: приведение разных записей к единому виду ГГГГ-ММ-ДД
- Числа и валюты: убрать пробелы, привести разделители, единый знак
- Склеенные поля: разнести имя, телефон и адрес из одной ячейки по столбцам
- Текст: единый регистр, обрезка лишних пробелов, исправление явных опечаток в городах
Структура запроса
Рабочий промпт собирается из четырёх частей. Первая — роль и контекст: вы говорите, что модель работает с выгрузкой из конкретной системы. Вторая — описание исходных проблем: перечисляете, что именно грязное. Третья — правила нормализации: к какому виду приводить каждое поле. Четвёртая — формат вывода: таблица с теми же столбцами, плюс отдельный список спорных строк, оставшихся для модели неоднозначными.
- Задайте контекст: «Это выгрузка заказов из CRM, столбцы — дата, клиент, телефон, сумма»
- Перечислите проблемы: разные форматы дат, дубли по телефону, склеенные имя и телефон
- Опишите правила: дату к виду ГГГГ-ММ-ДД, телефон к виду +7XXXXXXXXXX, дубли свести в одну строку
- Потребуйте отдельный список спорных строк, где правило сработать однозначно нельзя
- Задайте формат вывода: та же таблица столбец в столбец, без перестановки полей
- Прогоните на 30 строках, сверьте результат, потом запускайте на всём массиве
Всегда просите модель выносить спорные строки отдельным списком, а молча угадывать. Когда телефон записан так, что непонятно, чей он, модель должна сказать об этом, а подставить случайный вариант. Этот один пункт спасает от тихих подмен, которые потом всплывают в отчёте.
Формат вывода стоит закрепить отдельно. Без указания «верни ту же таблицу столбец в столбец» модель может переставить поля, переименовать заголовки или добавить свои комментарии прямо в ячейки. Для последующей вставки обратно в таблицу это создаёт лишнюю ручную работу. Чёткое требование к структуре вывода экономит больше времени, чем кажется на первый взгляд.
Где это запускать
Для разовой очистки хватает обычного чата с сильной языковой моделью: копируете данные, даёте промпт, забираете результат. Для регулярной задачи это неудобно, и связку выносят в таблицу или в автоматизацию. Выбор зависит от объёма и от того, как часто приходит грязная выгрузка.
| Сценарий | Чем закрыть | Когда усложнять |
|---|---|---|
| Разовая чистка до 300 строк | Чат с моделью, промпт вставкой | Когда чистите каждую неделю — переносят в шаблон |
| Регулярная очистка выгрузок | Промпт-шаблон в Google Таблицах через функцию вызова модели | Когда строк тысячи — подключают автоматизацию |
| Большие массивы и расписание | Связка через n8n с разбивкой на части | Когда нужна ежедневная автоматическая обработка |
| Чувствительные данные клиентов | Локальная модель либо обезличивание до отправки | Когда персональных данных много — закрытый контур |
Объём упирается в ограничение модели на размер входа. Сотни строк она держит за один запрос, десятки тысяч в один промпт уже выходят за предел, и массив разбивают на части либо обрабатывают через автоматизацию по кускам. Стоимость для разовой задачи укладывается в подписку на модель — это десятки долларов в месяц, точную цифру сверьте на сайте сервиса, тарифы меняются. Связка с n8n окупается, когда грязные выгрузки приходят постоянно.
Отдельный момент — персональные данные. Если в таблице телефоны и имена клиентов, отправлять её в облачную модель стоит с осторожностью. Для разовой очистки безопаснее обезличить данные заменой имён на номера строк, а для постоянной работы с чувствительными выгрузками рассматривают локальную модель. Это тема, которую разбираем под конкретный тип ваших данных.
Границы метода
Модель чистит данные, но смысл их понимает хуже вас. Она приведёт дату к нужному формату, но если в исходнике стоит явная опечатка в годе, модель способна оставить её или поправить наугад. Это свойство языковых моделей называют галлюцинациями: они уверенно подставляют правдоподобное значение там, где данных мало. Поэтому очищенную таблицу всегда сверяют с исходником хотя бы выборочно.
Сверьте число строк до и после: тихая потеря записей моделью недопустима. Проверьте суммы и итоги, если они есть, — подмена одной цифры в финансовой таблице дорого стоит. Просмотрите список спорных строк, который модель вынесла отдельно. Эти три проверки занимают пять минут и ловят почти все ошибки.
Чем точнее промпт, тем меньше пространства для выдумки. Расплывчатое правило вроде «исправь ошибки» открывает простор для фантазии. Жёсткое правило «телефон приведи к виду +7 и десять цифр, если цифр меньше десяти — вынеси строку в спорные» лишает модель места для угадывания. Узкий коридор для каждого поля — главная защита от тихих подмен.
Метод плохо ложится на случаи, где ошибка стоит слишком дорого, а проверить результат целиком невозможно. Если это таблица с банковскими реквизитами на оплату или с медицинскими данными, автоматическую очистку используют как черновик, а финальную сверку делает человек по каждой строке. В остальных задачах — заказы, контакты, отчёты по продажам — выигрыш во времени перекрывает риск, если проверка встроена в процесс.
Куда двигаться
Когда промпт для одной выгрузки отлажен, его превращают в шаблон, который команда переиспользует. Вы один раз описываете правила под структуру вашей таблицы, и дальше любой сотрудник вставляет данные и получает чистый результат без переписывания запроса. Этот шаблон становится частью рабочего процесса так же, как привычная формула в таблице.
Следующий шаг — вынести очистку в автоматизацию, когда грязные выгрузки приходят регулярно. Связка через n8n или вызов модели прямо из таблицы убирает ручное копирование: данные попадают в чистый вид по расписанию или по нажатию кнопки. Здесь начинается экономия уже целых дней в месяц вместо отдельных часов для тех, кто раньше разбирал выгрузки руками перед каждым отчётом.
Сложность — в точной формулировке правил под ваши конкретные данные и в выборе момента, когда чат пора менять на автоматизацию. Слишком ранний переход к сложной связке тратит бюджет до проверки гипотезы, слишком поздний — оставляет команду на ручной рутине. На бесплатном разборе процессов мы вместе смотрим на ваши таблицы и собираем промпт, который закроет именно вашу грязь.