01 Что это
У модели две жизни: обучение (training) и применение (inference). На обучении она читает интернет и меняет веса. На инференсе — отвечает на ваш запрос без изменения весов.
В продакшне 99% затрат и проблем — на инференсе. Каждый запрос пользователя = вызов инференс-сервера → загрузка модели в память GPU → генерация → ответ.
02 Ключевые метрики
- TTFT (time to first token). Сколько ждёт пользователь до первого символа. <500ms — норма.
- Tokens/sec. 30-100 — норма для API, 200-500 — Groq на маленьких моделях.
- Latency p95. 95-й перцентиль — самое медленное, что увидят 5% пользователей.
- Throughput. Сколько запросов в секунду тянет ваш инфер-кластер.
03 Как ускорить
- Квантизация. Урезаем точность весов с float16 до int4 — 3-4x быстрее, на 2-5% потеря качества.
- Groq / Cerebras. Специализированные чипы — 500+ токенов/сек на Llama.
- Стриминг. Не ждите весь ответ, рендерите по мере прихода токенов. UX в 2-3x лучше.
- Prompt caching. Кеш системного промпта снижает TTFT в 3-5x.