01 Как строить evals
- Соберите 50-100 типичных вопросов от пользователей.
- Для каждого зафиксируйте правильный ответ (золотой стандарт).
- Прогоняйте на каждом изменении: точность, латентность, стоимость.
- Не пускайте в прод изменения, которые ухудшают eval-score.
- Расширяйте набор по мере находок в проде.
02 Типы evals
- Exact match. Ответ должен совпадать со строкой.
- Includes. Ответ должен содержать конкретные ключевые слова.
- Semantic similarity. Эмбеддинги ответа и эталона достаточно близки.
- LLM-as-judge. Другая модель оценивает по rubric.
- Functional. Сгенерированный код / SQL запускается без ошибок.
- Human review. Эксперт смотрит подмножество.
03 Инструменты
- Langfuse — open-source observability + evals.
- Promptfoo — простой CLI для запуска тестов промптов.
- OpenAI Evals — встроенный фреймворк.
- Braintrust — managed-платформа.
- DeepEval — pytest для LLM.
04 Когда начинать
ПравилоС первого дня. Лучше 20 тестов, чем 0. Без evals каждая правка промпта — лотерея. На Team-программе evals — обязательная часть стартового пакета.