01 Зачем нужно
Облачные LLM (Claude, OpenAI) — это передача данных в США. С точки зрения 152-ФЗ — трансграничная передача ПДн. Без редактирования или явного согласия — нарушение.
Аналогично GDPR в EU и HIPAA в США для медицинских данных. PII redaction — это слой compliance перед использованием облачных LLM.
02 Что редактировать
- ФИО.
- Номера документов (паспорт, ИНН, СНИЛС, водительское).
- Контакты (телефон, email, мессенджеры).
- Адреса.
- Банковские реквизиты, карты.
- Медицинские данные.
- Биометрия.
03 Как реализовать
- Регулярки для очевидного — паспорт, телефон, email, банковские карты.
- Локальная NER-модель для имён и адресов (например, Stanza, spaCy, Natasha для русского).
- Замена на токены:
[NAME_1],[PHONE_2],[EMAIL_3]. - Сохранение mapping «токен → оригинал» локально.
- После ответа LLM — обратная подстановка для пользователя.
04 Альтернативы
- On-prem LLM — Llama / GigaChat / YandexGPT. Данные не уходят.
- EU/RU residency — Vertex AI EU, Azure OpenAI EU, Yandex Cloud.
- DPA с провайдером — заключаете договор обработки персональных данных.