● Инфраструктура / Уровень: средний / Q2 · 2026 / 14 из 93

Инференс.

Q: Можно ли держать инференс on-prem?

Да, на Llama 4 + vLLM/TGI + 2-4 GPU A100. Стоимость владения ~₽500K-2M/мес, окупается с >5M токенов/день.

процесс генерации ответа моделью

Короткий
ответ ↳

Инференс — это фаза работы LLM, когда модель генерирует ответ на ваш запрос. Метрики: скорость (токенов/сек), латентность p95, throughput. От инференса зависит UX и стоимость в проде.

01 Что это

У модели две жизни: обучение (training) и применение (inference). На обучении она читает интернет и меняет веса. На инференсе — отвечает на ваш запрос без изменения весов.

В продакшне 99% затрат и проблем — на инференсе. Каждый запрос пользователя = вызов инференс-сервера → загрузка модели в память GPU → генерация → ответ.

02 Ключевые метрики

TTFT (time to first token). Сколько ждёт пользователь до первого символа. <500ms — норма.
Tokens/sec. 30-100 — норма для API, 200-500 — Groq на маленьких моделях.
Latency p95. 95-й перцентиль — самое медленное, что увидят 5% пользователей.
Throughput. Сколько запросов в секунду тянет ваш инфер-кластер.

03 Как ускорить

Квантизация. Урезаем точность весов с float16 до int4 — 3-4x быстрее, на 2-5% потеря качества.
Groq / Cerebras. Специализированные чипы — 500+ токенов/сек на Llama.
Стриминг. Не ждите весь ответ, рендерите по мере прихода токенов. UX в 2-3x лучше.
Prompt caching. Кеш системного промпта снижает TTFT в 3-5x.

// 04 · от практики

Как мы применяем Инференс в работе с клиентами

В практике «Зинин × Штурбин» мы разворачиваем и поддерживаем Инференс под вашу нагрузку — это часть формата программа для команды. На реальных задачах это 20-100 tokens/sec на API, 200-500 на Groq и подобное. Рядом разбираем Latency p95 — термины в словаре связаны так же, как в работе.

Не консультируем абстрактно: команда уходит с навыком и рабочим процессом, который применяет сама. Посмотреть программы и цены →

// 06

Частые вопросы

01 Можно ли держать инференс on-prem?

Да, на Llama 4 + vLLM/TGI + 2-4 GPU A100. Стоимость владения ~₽500K-2M/мес, окупается с >5M токенов/день.

02 Что быстрее — Anthropic API или Groq?

Groq быстрее по чистой скорости (300+ т/с против 60 у Claude), но только на open-source моделях (Llama). Если нужен именно Claude — выбора нет.

03 Нужно ли мне думать про инференс?

Если используете API — нет, провайдер решает. Если on-prem или нужна латентность <300ms — да, это становится отдельная задача.

Понимаем — учим
работать с Инференс
внутри команды.

Час бесплатной диагностики: разбираем 2–3 ваших процесса и говорим прямо, где AI окупится за квартал, а где брать рано. Знания остаются у вашей команды.

Discovery call · 1 час @Aleksei_Shturbin