● Концепция / Уровень: базовый / Q2 · 2026 / 09 из 90

Контекстное окно.

сколько модель помнит за один запрос
Короткий
ответ
Контекстное окно — это сколько токенов LLM держит в голове за один запрос. У Claude — 200K, у Gemini — 1M+. Больше окно — можно загрузить целую книгу или кодовую базу. Дороже — каждый токен в контексте оплачивается.

01 Что это

Модель не помнит ничего вне текущего запроса. Контекстное окно — это максимальный размер запроса (включая историю, промпт, данные), который влезет.

1M токенов — это примерно 750K слов или 1500 страниц. Можно загрузить весь репозиторий компании.

02 Лимиты в 2026 году

МодельКонтекстВ страницах
Claude Sonnet 4.5200K~300
Claude Opus 4.7 (1M)1M~1500
GPT-5256K~400
Gemini 2.5 Pro1M-2M~3000
Llama 4128K~200

03 Подводные камни

  • Lost in the middle. Модель хуже видит инфу из середины очень длинного контекста. Кладите важное в начало или конец.
  • Цена. 1M токенов на Claude — ~$3 за один запрос. На массовых вызовах — серьёзный счёт.
  • Скорость. Большой контекст → большая задержка (5-30 сек).
  • Не альтернатива RAG. 1M помогает, но грамотный поиск всё равно быстрее и дешевле.
// 06

Частые вопросы

01 Нужно ли мне 1M контекст?

Чаще нет. Для большинства бизнес-задач 32K-200K достаточно. 1M — для анализа книг, репозиториев, длинных стенограмм.

02 Что лучше — 1M контекст или RAG?

Зависит. Если данных <100K токенов — кладите всё в контекст. Если больше или меняется — RAG.

03 Как считать сколько влезет?

Грубо: 1 русское слово ≈ 2-3 токена. 1 английское слово ≈ 1.3 токена. Точно — через tokenizer от провайдера.

Понимаем — учим
работать с Контекстное окно
внутри команды.

Час бесплатной диагностики: разбираем 2–3 ваших процесса и говорим прямо, где AI окупится за квартал, а где брать рано. Знания остаются у вашей команды.

Готовы поговорить?
@Aleksei_Shturbin Бот →