● Концепция / Уровень: базовый / Q2 · 2026 / 13 из 90

Токены.

единицы текста, которыми оперирует LLM
Короткий
ответ
Токен — это кусок текста длиной ~4 символа, базовая единица LLM. На токены модель «режет» вход, по токенам считает контекст и цену. 1 русское слово ≈ 2-3 токена, 1 английское ≈ 1.3 токена.

01 Что это

LLM не работает со словами или буквами — она работает с токенами. Токен — это часто целое короткое слово («the»), часть длинного («обуч-ение»), знак препинания или пробел.

У каждой модели свой токенизатор. Один и тот же текст в Claude и GPT может занять разное число токенов.

02 Сколько стоят

МодельInput / 1MOutput / 1M
Claude Sonnet 4.5$3$15
Claude Opus 4.7$15$75
GPT-5$5$15
Gemini 2.5 Pro$1.25$5
Llama 4 (Together)$0.20$0.60

03 Экономика на проде

  • Чат-бот: ~3K токенов на сессию × 1000 сессий/день = 3M токенов = $50-100/день на Claude.
  • Агент с длинной памятью: 30K токенов × 200 сессий = 6M = $100-200/день.
  • Prompt caching снижает повторяющиеся куски в 10x.
  • Output дороже input в 3-5x. Просите модель отвечать коротко, если можно.

04 Как считать

  • Через tiktoken (OpenAI) или Anthropic SDK — точное число.
  • Грубая оценка: русский — слово ≈ 2.5 токена, английский — слово ≈ 1.3 токена.
  • 1 страница A4 ≈ 500-700 токенов.
// 07

Частые вопросы

01 Почему русский дороже английского?

Токенизаторы оптимизированы под английский. Кириллица режется на больше кусков. Разница — 1.5-2x по числу токенов.

02 Как считать токены своих запросов?

Python: tiktoken.encoding_for_model('gpt-4o').encode(text). Для Claude — Anthropic SDK имеет count_tokens.

03 Cache hit считается?

Считается, но в 10x дешевле обычного input. На повторяющихся системных промптах экономия огромная.

Понимаем — учим
работать с Токены
внутри команды.

Час бесплатной диагностики: разбираем 2–3 ваших процесса и говорим прямо, где AI окупится за квартал, а где брать рано. Знания остаются у вашей команды.

Готовы поговорить?
@Aleksei_Shturbin Бот →