● Метрика / Уровень: средний / Q2 · 2026 / 46 из 93

Latency p95.

Q: Почему p95, а не средняя?

Средняя обманчива. p95 показывает реальный worst-case experience пользователя.

Q: Какой нормальный TTFT?

Time-to-first-token — должно быть <500мс для чата, <200мс для voice.

95-й перцентиль задержки

Короткий
ответ ↳

Latency p95 — это задержка, в которую укладываются 95% запросов. Не средняя, а самый плохой опыт 5% пользователей. Главная метрика production-LLM. p95 пугает не сама — пугает p99, но p95 — практический индикатор.

01 Почему p95, а не average

Среднее обманчиво. У вас может быть mean=1 сек, а 10% пользователей ждут 30 секунд — и они уходят. p95 фокусируется на worst-case experience для большинства, p99 — на самые тяжёлые случаи.

02 Нормальные значения

Сценарий	Хороший p95
Чат-ответ	<1.5 сек
RAG-ответ	<3 сек
Multi-step агент	<10 сек
Voice agent	<800 мс
Reasoning-модель	10-60 сек ок
Deep research	5-15 мин

03 Как улучшать

Стриминг. Не ждите весь ответ — рендерьте по мере прихода токенов. p95 «до первого токена» — критическая.
Prompt caching — TTFT в 3-5x ниже.
Groq / Cerebras — специализированные чипы.
Маленькие модели. Haiku 4.5 в 5x быстрее Opus.
Кеш частых ответов — semantic caching через Redis + embeddings.
Региональные эндпоинты — ближе к пользователю.

// 04 · от практики

Как мы применяем Latency p95 в работе с клиентами

В практике «Зинин × Штурбин» мы встраиваем Latency p95 в учёт и считаем отдачу — это часть формата стратегический совет. На реальных задачах это <1.5 сек — чат, <3 сек — RAG и подобное. Рядом разбираем Инференс — термины в словаре связаны так же, как в работе.

Не консультируем абстрактно: команда уходит с навыком и рабочим процессом, который применяет сама. Посмотреть программы и цены →

// 06

Частые вопросы

01 Почему p95, а не средняя?

Средняя обманчива. p95 показывает реальный worst-case experience пользователя.

02 Какой нормальный TTFT?

Time-to-first-token — должно быть <500мс для чата, <200мс для voice.

Понимаем — учим
работать с Latency p95
внутри команды.

Час бесплатной диагностики: разбираем 2–3 ваших процесса и говорим прямо, где AI окупится за квартал, а где брать рано. Знания остаются у вашей команды.

Discovery call · 1 час @Aleksei_Shturbin