01 Типы guardrails
- Input guardrails. Что нельзя присылать модели — PII, jailbreak-паттерны, токсичный контент.
- Output guardrails. Что модель не должна возвращать — токсичный контент, факты не из RAG, секреты.
- Behavioral. Allow-list инструментов, лимиты вызовов, ограничения по доменам.
- Topical. Модель не должна выходить за рамки темы (например, поддержка не должна обсуждать политику).
02 Инструменты
- Llama Guard 3 — open-source классификатор от Meta для фильтра токсичности.
- Guardrails AI — Python библиотека с готовыми правилами.
- NeMo Guardrails — от NVIDIA, мощный фреймворк.
- Microsoft Presidio — для PII redaction.
- Anthropic Constitutional AI — встроено в Claude.
03 Архитектура
Стандартный pipeline:
- Input → guardrails check → LLM (если pass) или reject (если fail).
- LLM → output guardrails → пользователь (если pass) или fallback (если fail).
- Логирование всех reject — для аудита и улучшения.
04 Compliance
EU AI Act, OWASP LLM Top 10, NIST AI RMF — все требуют наличия guardrails-слоя для production-AI с реальными пользователями. В 2026 — стандарт enterprise-сертификаций.