● Методология / Уровень: продвинутый / Q2 · 2026 / 22 из 93

Distillation.

обучение маленькой модели у большой

Короткий
ответ ↳

Distillation — это обучение маленькой модели на ответах большой. Результат: компактная модель с почти тем же качеством на узкой задаче, в 10-50x дешевле инференса. Так делают Haiku из Sonnet, GPT-4o-mini из GPT-4o.

01 Как работает

Берёте большую модель (teacher) и маленькую (student).
Генерируете тысячи примеров «вход → ответ teacher» — синтетический датасет.
Тренируете student воспроизводить эти ответы. Используется не только финальный токен, но и распределения вероятностей teacher.
На вашей узкой задаче student работает почти как teacher, но в 10-50x быстрее и дешевле.

02 Зачем нужно

Цена. Дистиллированная модель — в 10-30x дешевле в инференсе.
Латентность. Маленькая модель отвечает быстрее.
Compliance. Маленькая модель помещается в on-prem GPU без датацентра.
Edge-deployment. Запуск на телефонах, IoT, edge-серверах.

03 В нашей практике

Применяем в кейсах с большим объёмом однотипных задач: классификация писем, тикетов, лидов. Прототип на Claude Sonnet ($3/1M) → дистилляция в Llama 3 8B ($0.20/1M). Экономия 15x при сохранении 90-95% качества.

04 Distillation vs Fine-tuning

Fine-tuning — обучение модели на ручной разметке. Distillation — на ответах другой модели. На практике это часто одно и то же — fine-tune маленькой модели на синтетических данных от большой.

// 05 · от практики

Как мы применяем Distillation в работе с клиентами

В практике «Зинин × Штурбин» мы внедряем Distillation в рабочие процессы команды — это часть формата программа для команды. На реальных задачах это Claude Haiku из Sonnet, GPT-4o-mini из GPT-4o и подобное. Рядом разбираем Fine-tuning — термины в словаре связаны так же, как в работе.

Не консультируем абстрактно: команда уходит с навыком и рабочим процессом, который применяет сама. Посмотреть программы и цены →

// 07

Частые вопросы

01 Сложно ли сделать самому?

Не очень. Сбор датасета через большую модель + Together AI fine-tune Llama. Полная стоимость — ~₽100-300K за модель.

02 Все ли модели можно дистиллировать?

Открытые — да. Закрытые (Claude, GPT) — формально terms-of-service запрещают использовать их output для обучения конкурирующих моделей.

Понимаем — учим
работать с Distillation
внутри команды.

Час бесплатной диагностики: разбираем 2–3 ваших процесса и говорим прямо, где AI окупится за квартал, а где брать рано. Знания остаются у вашей команды.

Discovery call · 1 час @Aleksei_Shturbin