01 Цены Q2 2026
| Модель | Input/1M | Output/1M |
|---|---|---|
| Claude Sonnet 4.5 | $3 | $15 |
| Claude Opus 4.7 | $15 | $75 |
| Claude Haiku 4.5 | $0.80 | $4 |
| GPT-5 | $5 | $15 |
| GPT-5-mini | $0.50 | $1.50 |
| o3 | $15 | $60 |
| Gemini 2.5 Pro | $1.25 | $5 |
| Llama 4 (Together) | $0.20 | $0.60 |
02 Как снижать стоимость
- Prompt caching — 10x скидка на повторяющиеся куски.
- Роутер: простое — на mini-модель, сложное — на Sonnet/Opus.
- Batch API — 50% скидка на не-критичный по латентности.
- Локальная Llama для high-volume задач.
- Просите модель отвечать коротко — output дороже input в 3-5x.
- Distillation в маленькую модель для узкой задачи.
03 TCO LLM-приложения
Не только токены:
- Токены (input + output + reasoning).
- Embeddings для RAG.
- Vector DB (Qdrant / Pinecone).
- Observability (Langfuse).
- Хостинг приложения.
- Поддержка и evals.