01 Зачем нужен
Агент с системным промптом 10K токенов + 5 пользовательских сессий в час = 50K токенов / час оплачиваются повторно за один и тот же текст. С caching — 10x дешевле этой части.
На длинных rag-документах экономия ещё больше: 100K токенов закешированного контекста = $0.30 в час вместо $3.00.
02 Как включить
В Anthropic API: помечаете блоки в промпте cache_control: ephemeral. На последующие запросы — автоматический cache hit. TTL 5 минут (по умолчанию) или 1 час (за доп. цену). После TTL — кеш сбрасывается.
03 У OpenAI и Google
- OpenAI — automatic prompt caching с октября 2024, скидка 50% на cached input.
- Google Gemini — explicit caching API с TTL до 1 часа.
- Anthropic — самый зрелый: 90% скидка, explicit control.
04 Когда даёт реальную экономию
- Системный промпт > 1024 токенов и повторяется.
- RAG с одинаковыми документами в нескольких turns.
- Few-shot с большим числом примеров.
- Длинная conversation history.