● Инфраструктура / Уровень: средний / Q2 · 2026 / 14 из 90

Инференс.

процесс генерации ответа моделью
Короткий
ответ
Инференс — это фаза работы LLM, когда модель генерирует ответ на ваш запрос. Метрики: скорость (токенов/сек), латентность p95, throughput. От инференса зависит UX и стоимость в проде.

01 Что это

У модели две жизни: обучение (training) и применение (inference). На обучении она читает интернет и меняет веса. На инференсе — отвечает на ваш запрос без изменения весов.

В продакшне 99% затрат и проблем — на инференсе. Каждый запрос пользователя = вызов инференс-сервера → загрузка модели в память GPU → генерация → ответ.

02 Ключевые метрики

  • TTFT (time to first token). Сколько ждёт пользователь до первого символа. <500ms — норма.
  • Tokens/sec. 30-100 — норма для API, 200-500 — Groq на маленьких моделях.
  • Latency p95. 95-й перцентиль — самое медленное, что увидят 5% пользователей.
  • Throughput. Сколько запросов в секунду тянет ваш инфер-кластер.

03 Как ускорить

  • Квантизация. Урезаем точность весов с float16 до int4 — 3-4x быстрее, на 2-5% потеря качества.
  • Groq / Cerebras. Специализированные чипы — 500+ токенов/сек на Llama.
  • Стриминг. Не ждите весь ответ, рендерите по мере прихода токенов. UX в 2-3x лучше.
  • Prompt caching. Кеш системного промпта снижает TTFT в 3-5x.
// 06

Частые вопросы

01 Можно ли держать инференс on-prem?

Да, на Llama 4 + vLLM/TGI + 2-4 GPU A100. Стоимость владения ~₽500K-2M/мес, окупается с >5M токенов/день.

02 Что быстрее — Anthropic API или Groq?

Groq быстрее по чистой скорости (300+ т/с против 60 у Claude), но только на open-source моделях (Llama). Если нужен именно Claude — выбора нет.

03 Нужно ли мне думать про инференс?

Если используете API — нет, провайдер решает. Если on-prem или нужна латентность <300ms — да, это становится отдельная задача.

Понимаем — учим
работать с Инференс
внутри команды.

Час бесплатной диагностики: разбираем 2–3 ваших процесса и говорим прямо, где AI окупится за квартал, а где брать рано. Знания остаются у вашей команды.

Готовы поговорить?
@Aleksei_Shturbin Бот →