01 Почему p95, а не average
Среднее обманчиво. У вас может быть mean=1 сек, а 10% пользователей ждут 30 секунд — и они уходят. p95 фокусируется на worst-case experience для большинства, p99 — на самые тяжёлые случаи.
02 Нормальные значения
| Сценарий | Хороший p95 |
|---|---|
| Чат-ответ | <1.5 сек |
| RAG-ответ | <3 сек |
| Multi-step агент | <10 сек |
| Voice agent | <800 мс |
| Reasoning-модель | 10-60 сек ок |
| Deep research | 5-15 мин |
03 Как улучшать
- Стриминг. Не ждите весь ответ — рендерьте по мере прихода токенов. p95 «до первого токена» — критическая.
- Prompt caching — TTFT в 3-5x ниже.
- Groq / Cerebras — специализированные чипы.
- Маленькие модели. Haiku 4.5 в 5x быстрее Opus.
- Кеш частых ответов — semantic caching через Redis + embeddings.
- Региональные эндпоинты — ближе к пользователю.