● Метрика / Уровень: средний / Q2 · 2026 / 46 из 90

Latency p95.

95-й перцентиль задержки
Короткий
ответ
Latency p95 — это задержка, в которую укладываются 95% запросов. Не средняя, а самый плохой опыт 5% пользователей. Главная метрика production-LLM. p95 пугает не сама — пугает p99, но p95 — практический индикатор.

01 Почему p95, а не average

Среднее обманчиво. У вас может быть mean=1 сек, а 10% пользователей ждут 30 секунд — и они уходят. p95 фокусируется на worst-case experience для большинства, p99 — на самые тяжёлые случаи.

02 Нормальные значения

СценарийХороший p95
Чат-ответ<1.5 сек
RAG-ответ<3 сек
Multi-step агент<10 сек
Voice agent<800 мс
Reasoning-модель10-60 сек ок
Deep research5-15 мин

03 Как улучшать

  • Стриминг. Не ждите весь ответ — рендерьте по мере прихода токенов. p95 «до первого токена» — критическая.
  • Prompt caching — TTFT в 3-5x ниже.
  • Groq / Cerebras — специализированные чипы.
  • Маленькие модели. Haiku 4.5 в 5x быстрее Opus.
  • Кеш частых ответов — semantic caching через Redis + embeddings.
  • Региональные эндпоинты — ближе к пользователю.
// 06

Частые вопросы

01 Почему p95, а не средняя?

Средняя обманчива. p95 показывает реальный worst-case experience пользователя.

02 Какой нормальный TTFT?

Time-to-first-token — должно быть <500мс для чата, <200мс для voice.

Понимаем — учим
работать с Latency p95
внутри команды.

Час бесплатной диагностики: разбираем 2–3 ваших процесса и говорим прямо, где AI окупится за квартал, а где брать рано. Знания остаются у вашей команды.

Готовы поговорить?
@Aleksei_Shturbin Бот →