Как анонимизировать данные для нейросети

Анонимизация перед загрузкой в нейросеть убирает из текста то, по чему узнают конкретного человека, и оставляет смысл, который нужен модели для работы. Имя, телефон, паспорт и адрес заменяются на метки вроде [КЛИЕНТ] или [ТЕЛЕФОН], а суть запроса остаётся. Это снижает риск по работе с языковой моделью и закрывает часть требований 152-ФЗ.

Зачем обезличивать

TL;DR

Анонимизация заменяет в данных всё, по чему узнают человека, на нейтральные метки, сохраняя смысл текста для модели. Порядок такой: находите персональные данные, заменяете их на устойчивые метки, проверяете результат и только потом отдаёте в нейросеть. Это снижает риск утечки и помогает выполнить часть требований 152-ФЗ при работе с внешними сервисами.

Когда бизнес отдаёт текст во внешнюю языковую модель, этот текст уходит на сервер сервиса. Если в нём остались телефон клиента, номер договора и фамилия, вы передали персональные данные третьей стороне, и здесь начинается зона 152-ФЗ. Обезличивание разрывает эту связь: модель видит, что «клиент жалуется на просрочку поставки», и кто именно это сказал.

Цель анонимизации — убрать опознавательные признаки, оставив то, что модели нужно для ответа, вместо превращения текста в кашу из меток. Если вы вычистите вообще всё, модель потеряет контекст и ответит бесполезно. Поэтому важно различать данные, которые опознают человека, и данные, которые просто описывают ситуацию.

Полностью обезличенные данные выходят из-под действия закона о персональных данных, но грань тонкая. Если по набору меток человека всё равно вычисляют (один клиент в маленьком городе с редкой услугой), обезличивание считается неполным. Поэтому ниже — порядок, который снижает этот риск, а финальное решение по чувствительным процессам лучше согласовать с юристом.

Прямые идентификаторы: имя, телефон, email, паспорт, СНИЛС, номер карты — заменяются всегда
Косвенные: адрес, должность, дата рождения, номер договора — заменяются, когда вместе указывают на человека
Контекст ситуации: суть запроса, тип проблемы, продукт — остаётся для работы модели
Внутренние секреты: цены, условия сделок, коммерческая тайна — убираются отдельно от персональных данных

Что заменять

Удобнее работать по таблице соответствий: что нашли, на какую метку поменяли. Метки делайте устойчивыми и одинаковыми по всему документу, тогда модель понимает, что [КЛИЕНТ_1] во всех абзацах — один человек, и логика разговора сохраняется. Если каждый раз ставить разные метки, текст развалится на бессвязные куски.

Что в тексте	На что менять	Зачем сохранить связь
Имя и фамилия	[КЛИЕНТ_1], [СОТРУДНИК_1]	Модель отличает участников диалога друг от друга
Телефон, email	[ТЕЛЕФОН], [EMAIL]	Видно, что контакт был, без самого контакта
Паспорт, СНИЛС, карта	[ДОКУМЕНТ]	Факт упоминания остаётся, номер исчезает
Адрес, город	[АДРЕС] или [ГОРОД]	География нужна для смысла, точный адрес лишний
Номер договора, сделки	[ДОГОВОР_1]	Связь между упоминаниями держится по метке

// Главная ловушка

Косвенные данные опаснее прямых. Фамилию вычистить легко, а вот связка «директор завода в Луховицах, жалоба на партию от 14 марта» опознаёт человека без всякого имени. Проверяйте сверх явных идентификаторов ещё и наборы признаков, которые вместе указывают на конкретное лицо.

Порядок обезличивания

Разовый текст обезличивают руками, поток документов — через подготовленный скрипт или сценарий с маской. Ниже порядок для ручного варианта, с которого стоит начать: он показывает логику, а её потом переносят в автоматизацию. Принцип один — сначала находим, потом заменяем, в конце проверяем.

Выпишите список того, что в этом документе считается персональными данными: имена, телефоны, адреса, номера
Заведите таблицу соответствий: в левом столбце исходное значение, в правом устойчивая метка
Пройдите текст и замените каждое найденное значение на метку из таблицы, включая все повторы
Отдельно вычистите коммерческую тайну: цены, условия сделок, внутренние названия проектов
Перечитайте результат глазами и проверьте, остался ли смысл и можно ли по меткам опознать человека
Сохраните таблицу соответствий отдельно и под доступом, чтобы при необходимости вернуть данные на место

Для потока документов этот же порядок собирают в сценарий: маска по шаблонам ловит телефоны и email автоматически, а имена и адреса размечает модель на отдельном шаге. Но автоматическая разметка ошибается, поэтому на чувствительных данных результат всё равно просматривает человек перед отправкой во внешнюю модель.

Проверка результата

Обезличивание без проверки опаснее, чем его отсутствие: вы думаете, что данные чистые, и отдаёте их во внешний сервис спокойно, а там осталась фамилия в подписи письма. Поэтому проверка — обязательный шаг наравне с самой заменой. Проверяют по простому вопросу: можно ли по оставшемуся тексту понять, о ком речь.

Поиск по тексту: прогоните по документу шаблоны телефонов, email и серий паспорта, чтобы поймать пропуски
Проверка подписей и шапок: имена часто прячутся в реквизитах письма и колонтитулах, а в теле
Тест на опознание: дайте обезличенный текст коллеге и спросите, понял ли он, о ком речь
Проверка косвенных связок: убедитесь, что набор оставшихся признаков указывает на одного человека

// Решение остаётся за человеком

Автоматический обезличиватель — помощник, а гарантия. Маска пропускает имена в нестандартном формате, модель путает метки. Поэтому на персональных данных клиентов и сотрудников финальную проверку держит живой человек, а отправку наружу делают только после неё. Это правило защищает и бизнес, и людей в данных.

Для самых чувствительных процессов — медицина, кадры, юридические дела — стоит рассмотреть вариант, где обезличивание вообще исключает отправку наружу. Локальная модель на своём сервере обрабатывает данные внутри контура компании, и вопрос передачи третьей стороне снимается целиком. Это дороже на старте, но для данных, утечка которых дорого обходится, оправдано.

Сторона закона

Обезличивание помогает с 152-ФЗ, но остаётся лишь одной из мер защиты данных среди прочих требований закона. Закон считает данные персональными, пока по ним можно определить человека. Корректно обезличенные данные выходят из-под этого определения, и тогда требования к их передаче смягчаются. Но если обезличивание неполное, вы остаётесь оператором персональных данных со всеми обязанностями.

Отдельно стоит вопрос трансграничной передачи. Когда внешний сервис размещён за пределами страны, передача персональных данных туда требует отдельных оснований. Обезличивание до отправки снимает эту проблему: вы передаёте уже обезличенные данные, выпавшие из определения персональных. Именно поэтому для российского бизнеса анонимизация перед загрузкой во внешнюю модель — практичный путь вместо пустой формальности.

Частый провал — бизнес обезличивает данные на словах, а на деле оставляет в тексте реквизиты, по которым клиент вычисляется за минуту. При проверке такой текст считается персональными данными, и обезличивание тут бессильно. Поэтому процесс стоит описать как регламент: что заменяем, кто проверяет, куда складываем таблицу соответствий. Это снимает споры и держит процесс воспроизводимым.

● Discovery · 1 час · бесплатно

Расскажите, какие данные у вас уходят в нейросеть и из каких процессов, и я на бесплатном часовом разборе покажу, что обезличивать в первую очередь и где безопаснее держать обработку внутри контура.

Прийти на Discovery →

Частые вопросы

Что обязательно заменять перед загрузкой текста в нейросеть?

Всегда меняйте прямые идентификаторы: имя, телефон, email, паспорт, СНИЛС, номер карты. Косвенные данные — адрес, должность, номер договора — заменяйте, когда вместе они указывают на человека. Суть запроса и тип проблемы оставляйте, иначе модель потеряет контекст.

Выводит ли анонимизация данные из-под действия 152-ФЗ?

Корректно обезличенные данные выходят из-под определения персональных, и требования к их передаче смягчаются. Но грань тонкая: если по оставшимся меткам человека вычисляют, обезличивание считается неполным, и вы остаётесь оператором персональных данных со всеми обязанностями.

Почему косвенные данные опаснее имени и телефона?

Имя вычистить легко, а связка признаков опознаёт человека без него. Директор небольшого завода в конкретном городе с жалобой от конкретной даты узнаётся сразу. Поэтому проверяйте сверх явных идентификаторов ещё и наборы деталей, которые вместе указывают на одно лицо.

Как проверить, что обезличивание сработало?

Прогоните по тексту шаблоны телефонов, email и серий паспорта, чтобы поймать пропуски. Проверьте подписи и колонтитулы — там часто прячутся имена. Дайте текст коллеге и спросите, понял ли он, о ком речь. Если опознать человека можно, обезличивание неполное.

Можно ли полностью довериться автоматическому обезличиванию?

Маска по шаблонам и разметка моделью ускоряют поток, но ошибаются: пропускают имена в нестандартном формате и путают метки. На персональных данных клиентов и сотрудников финальную проверку держит человек, а отправку наружу делают только после неё.

Когда вместо анонимизации стоит ставить локальную модель?

Для самых чувствительных процессов — медицина, кадры, юридические дела — локальная модель на своём сервере обрабатывает данные внутри контура компании, и вопрос передачи третьей стороне снимается целиком. Это дороже на старте, но оправдано там, где утечка обходится дорого.