01 Как работает
- Берёте большую модель (teacher) и маленькую (student).
- Генерируете тысячи примеров «вход → ответ teacher» — синтетический датасет.
- Тренируете student воспроизводить эти ответы. Используется не только финальный токен, но и распределения вероятностей teacher.
- На вашей узкой задаче student работает почти как teacher, но в 10-50x быстрее и дешевле.
02 Зачем нужно
- Цена. Дистиллированная модель — в 10-30x дешевле в инференсе.
- Латентность. Маленькая модель отвечает быстрее.
- Compliance. Маленькая модель помещается в on-prem GPU без датацентра.
- Edge-deployment. Запуск на телефонах, IoT, edge-серверах.
03 В нашей практике
Применяем в кейсах с большим объёмом однотипных задач: классификация писем, тикетов, лидов. Прототип на Claude Sonnet ($3/1M) → дистилляция в Llama 3 8B ($0.20/1M). Экономия 15x при сохранении 90-95% качества.
04 Distillation vs Fine-tuning
Fine-tuning — обучение модели на ручной разметке. Distillation — на ответах другой модели. На практике это часто одно и то же — fine-tune маленькой модели на синтетических данных от большой.