● Методология / Уровень: средний / Q2 · 2026 / 27 из 90

Prompt caching.

кеш повторяющихся кусков промпта
Короткий
ответ
Prompt caching — это кеширование длинных кусков промпта между запросами. У Anthropic закешированный контент стоит в 10x дешевле обычного input. Незаменим для агентов с длинным системным промптом или RAG-документами.

01 Зачем нужен

Агент с системным промптом 10K токенов + 5 пользовательских сессий в час = 50K токенов / час оплачиваются повторно за один и тот же текст. С caching — 10x дешевле этой части.

На длинных rag-документах экономия ещё больше: 100K токенов закешированного контекста = $0.30 в час вместо $3.00.

02 Как включить

В Anthropic API: помечаете блоки в промпте cache_control: ephemeral. На последующие запросы — автоматический cache hit. TTL 5 минут (по умолчанию) или 1 час (за доп. цену). После TTL — кеш сбрасывается.

03 У OpenAI и Google

  • OpenAI — automatic prompt caching с октября 2024, скидка 50% на cached input.
  • Google Gemini — explicit caching API с TTL до 1 часа.
  • Anthropic — самый зрелый: 90% скидка, explicit control.

04 Когда даёт реальную экономию

  • Системный промпт > 1024 токенов и повторяется.
  • RAG с одинаковыми документами в нескольких turns.
  • Few-shot с большим числом примеров.
  • Длинная conversation history.
// 07

Частые вопросы

01 OpenAI делает то же самое?

Да, automatic prompt caching, скидка 50% на cached input.

02 Сколько живёт кеш?

Anthropic — 5 минут или 1 час. OpenAI — несколько минут автоматически.

Понимаем — учим
работать с Prompt caching
внутри команды.

Час бесплатной диагностики: разбираем 2–3 ваших процесса и говорим прямо, где AI окупится за квартал, а где брать рано. Знания остаются у вашей команды.

Готовы поговорить?
@Aleksei_Shturbin Бот →