● Методология / Уровень: средний / Q2 · 2026 / 27 из 93

Prompt caching.

кеш повторяющихся кусков промпта

Короткий
ответ ↳

Prompt caching — это кеширование длинных кусков промпта между запросами. У Anthropic закешированный контент стоит в 10x дешевле обычного input. Незаменим для агентов с длинным системным промптом или RAG-документами.

01 Зачем нужен

Агент с системным промптом 10K токенов + 5 пользовательских сессий в час = 50K токенов / час оплачиваются повторно за один и тот же текст. С caching — 10x дешевле этой части.

На длинных rag-документах экономия ещё больше: 100K токенов закешированного контекста = $0.30 в час вместо $3.00.

02 Как включить

В Anthropic API: помечаете блоки в промпте cache_control: ephemeral. На последующие запросы — автоматический cache hit. TTL 5 минут (по умолчанию) или 1 час (за доп. цену). После TTL — кеш сбрасывается.

03 У OpenAI и Google

OpenAI — automatic prompt caching с октября 2024, скидка 50% на cached input.
Google Gemini — explicit caching API с TTL до 1 часа.
Anthropic — самый зрелый: 90% скидка, explicit control.

04 Когда даёт реальную экономию

Системный промпт > 1024 токенов и повторяется.
RAG с одинаковыми документами в нескольких turns.
Few-shot с большим числом примеров.
Длинная conversation history.

// 05 · от практики

Как мы применяем Prompt caching в работе с клиентами

В практике «Зинин × Штурбин» мы внедряем Prompt caching в рабочие процессы команды — это часть формата программа для команды. На реальных задачах это системный промпт 5K токенов, база знаний в промпте и подобное. Рядом разбираем Контекстное окно — термины в словаре связаны так же, как в работе.

Не консультируем абстрактно: команда уходит с навыком и рабочим процессом, который применяет сама. Посмотреть программы и цены →

// 07

Частые вопросы

01 OpenAI делает то же самое?

Да, automatic prompt caching, скидка 50% на cached input.

02 Сколько живёт кеш?

Anthropic — 5 минут или 1 час. OpenAI — несколько минут автоматически.

Понимаем — учим
работать с Prompt caching
внутри команды.

Час бесплатной диагностики: разбираем 2–3 ваших процесса и говорим прямо, где AI окупится за квартал, а где брать рано. Знания остаются у вашей команды.

Discovery call · 1 час @Aleksei_Shturbin