YandexGPT API: стоимость запросов

YandexGPT через API оплачивается за токены — кусочки текста, на которые модель разбивает ваш запрос и свой ответ. Цена зависит от выбранной модели и складывается из входных токенов (то, что вы отправили) и выходных (то, что модель сгенерировала). Звучит сложно, но считается за пару минут. Разберём, как прикинуть стоимость тысячи обращений и где расход растёт незаметно для владельца.

За что платите

TL;DR

YandexGPT API считает деньги за токены: отдельно за то, что вы отправили модели, и отдельно за то, что она сгенерировала в ответ. Цена за тысячу токенов зависит от модели — лёгкая версия дешевле, старшая дороже и умнее. Точные тарифы в рублях сверяйте на странице Yandex Cloud, они меняются. Главный незаметный расход — длинный системный контекст, который уходит в каждый запрос.

Токен — это примерно три-четыре символа русского текста или часть слова. Когда вы отправляете модели запрос, она разбивает его на токены и считает их, потом так же считает свой ответ. Оплата идёт за сумму входных и выходных токенов по тарифу выбранной модели. Чем длиннее ваш запрос и развёрнутее ответ, тем больше токенов и тем выше счёт.

В работе с компаниями я часто вижу удивление: владелец считает цену по числу запросов, а Yandex Cloud выставляет счёт по токенам. Один запрос может стоить копейки, если это короткий вопрос, и заметно дороже, если вы каждый раз отправляете модели длинную инструкцию плюс большой документ. Поэтому считать надо именно в токенах, штуки обращений тут обманывают.

Yandex предлагает несколько версий модели. Лёгкая обходится дешевле за тысячу токенов и подходит для простых задач — классификации, коротких ответов, разметки. Старшая стоит дороже, но лучше держит сложный контекст и пишет связнее. Разумная тактика — гонять рутину на лёгкой модели, а на старшую переключаться только там, где качество критично.

Входные токены: ваш запрос вместе с системной инструкцией и приложенными данными
Выходные токены: текст, который модель сгенерировала в ответ
Тариф зависит от версии модели: лёгкая дешевле, старшая дороже и умнее
Системный контекст уходит в каждый запрос и оплачивается каждый раз
Цены указаны за тысячу токенов и считаются в рублях

Как посчитать цену

Чтобы прикинуть стоимость до запуска, возьмите один типовой запрос и посчитайте его в токенах. Это даёт честную базу: дальше вы просто умножаете на ожидаемое число обращений в месяц. Расчёт занимает пять минут и спасает от неприятного первого счёта.

Возьмите один реальный запрос, который пойдёт в продакшен: инструкция плюс данные пользователя
Прикиньте его длину в токенах — грубо это число символов делёное на три-четыре
Оцените длину типового ответа модели в токенах тем же способом
Сложите входные и выходные токены, умножьте на тариф модели за тысячу токенов
Умножьте стоимость одного запроса на ожидаемое число обращений в месяц
Добавьте запас 30 процентов на разброс длины запросов и ответов

// Системный контекст оплачивается каждый раз

Если вы прикрепляете к каждому запросу длинную инструкцию на тысячу токенов, она уходит в модель при каждом обращении и оплачивается заново. На потоке в десятки тысяч запросов это превращается в основную статью счёта. Держите системную часть короткой и выносите справочные данные в отдельное хранилище через подход RAG, оставляя сами запросы короткими.

Где расход растёт

Счёт за API растёт в трёх местах, и все три легко упустить при планировании. Первое — длинный системный контекст. Вы один раз написали подробную инструкцию модели, она работает прекрасно, но прикрепляется к каждому запросу и оплачивается каждый раз. На малом потоке это незаметно, на большом становится главной строкой расхода.

Что гоняем	Подходящая модель	Логика расхода
Классификация и разметка заявок	Лёгкая версия	Короткий ответ, минимум выходных токенов
Ответы клиентам в чате	Лёгкая или средняя	Зависит от длины диалога и контекста
Разбор длинных документов	Старшая версия	Много входных токенов, дорого на объёме
Генерация развёрнутых текстов	Старшая версия	Много выходных токенов, считайте заранее

Второе место — повторные обращения из-за галлюцинаций. Модель иногда отвечает неточно, и приложение шлёт уточняющий запрос, потом ещё один. Каждая такая итерация — это новые оплаченные токены. Хорошо настроенный промпт с первого раза снижает число повторов и прямо экономит деньги.

Третье — отсутствие лимитов. Без потолка на расход одна ошибка в коде, которая шлёт запросы в цикле, способна за ночь сжечь заметную сумму. В Yandex Cloud есть бюджеты и оповещения — настройте их сразу, до первого боевого запуска. Эта страховка бесплатна и спасает от неприятного сюрприза в конце месяца.

● Discovery · 1 час · бесплатно

Покажите, какую задачу вы хотите отдать YandexGPT, и я посчитаю реальную стоимость токенов под ваш поток и подскажу, какая модель подойдёт. Разберём это на бесплатном часовом созвоне.

Прийти на Discovery →

Российская против зарубежной

Владельцы часто спрашивают, брать YandexGPT или зарубежную модель. Ответ зависит от трёх вещей: язык ваших текстов, чувствительность данных и удобство оплаты. YandexGPT хорошо держит русский, оплачивается рублями с российского юрлица и хранит данные внутри страны — это снимает половину вопросов комплаенса для компаний, работающих с персональными данными клиентов.

Зарубежные модели в части задач сильнее на сложных рассуждениях и длинном контексте, но упираются в оплату из России и в вопрос, где физически лежат ваши данные. Для чувствительной информации это серьёзный аргумент в пользу отечественного решения. Для нейтральных задач вроде генерации маркетинговых текстов разница в качестве может перевесить неудобства оплаты.

// Выбор по данным

Если вы гоняете через модель персональные данные клиентов или коммерческую тайну, российское размещение и оплата рублями перевешивают разницу в качестве. Для нейтральных задач сравнивайте по цене токенов и качеству на ваших реальных примерах вместо громких названий моделей.

Практичный путь — протестировать обе на десятке ваших реальных запросов и сравнить и качество ответов, и стоимость токенов. Часто оказывается, что для рутины с головой хватает лёгкой версии YandexGPT, а зарубежную старшую модель подключают точечно под редкие сложные случаи. Такая связка держит расходы низкими и закрывает вопрос с данными.

Куда двигаться

Начните с расчёта на одном типовом запросе и тестового запуска на лёгкой модели с настроенным бюджетом и оповещениями. Неделя работы на реальном потоке покажет настоящую стоимость точнее любых прикидок: вы увидите средний размер запроса, число повторов и место, где расход концентрируется.

Дальше оптимизация идёт по понятным рычагам. Укорачиваете системный контекст, выносите справочные данные в отдельное хранилище вместо вставки в каждый запрос, переводите рутину на лёгкую модель и оставляете старшую только под сложные случаи. Каждый из этих шагов режет счёт и сохраняет качество там, где оно важно.

Главная сложность здесь — посчитать честно до запуска и выбрать модель под конкретную задачу, а самую дорогую на всякий случай. Самый частый провал выглядит так: компания подключает старшую модель ко всем задачам подряд, прикрепляет к каждому запросу огромную инструкцию и получает счёт, который убивает идею автоматизации. На разборе процессов мы вместе считаем токены под ваш поток и собираем связку, которая окупается.

Частые вопросы

Как именно YandexGPT API считает стоимость запроса?

API считает деньги за токены — кусочки текста по три-четыре символа. Оплачиваются отдельно входные токены (ваш запрос вместе с инструкцией и данными) и выходные (ответ модели). Стоимость одного обращения равна сумме входных и выходных токенов, умноженной на тариф выбранной модели за тысячу токенов. Точные цены в рублях смотрите на странице Yandex Cloud.

Сколько стоит тысяча запросов к YandexGPT?

Однозначной цены за тысячу запросов нет, потому что счёт идёт по токенам, а по числу обращений. Короткие запросы стоят копейки, длинные с большим контекстом — заметно дороже. Чтобы посчитать, возьмите один типовой запрос, оцените его длину в токенах вместе с ответом, умножьте на тариф модели и на тысячу. Добавьте запас 30 процентов на разброс.

Чем отличаются лёгкая и старшая версии модели по цене?

Лёгкая версия дешевле за тысячу токенов и подходит для простых задач: классификации, коротких ответов, разметки. Старшая стоит дороже, лучше держит сложный контекст и пишет связнее. Разумная тактика — гонять рутину на лёгкой модели и переключаться на старшую только там, где качество критично. Так вы держите расходы низкими без потери в важных местах.

Где расход на YandexGPT растёт незаметно?

Расход растёт в трёх местах: длинный системный контекст уходит в каждый запрос и оплачивается заново, повторные обращения из-за неточных ответов умножают токены, а отсутствие лимитов превращает ошибку в коде в крупный счёт за ночь. Держите инструкцию короткой, настраивайте промпт под ответ с первого раза и обязательно ставьте бюджет с оповещениями.

YandexGPT выгоднее зарубежной модели?

Зависит от задачи. YandexGPT хорошо держит русский, оплачивается рублями и хранит данные внутри страны — это решает вопрос комплаенса для чувствительной информации. Зарубежные модели местами сильнее на сложных рассуждениях, но упираются в оплату из России и размещение данных. Для рутины с персональными данными выбирайте российскую, для нейтральных задач сравнивайте по цене токенов.

Как защититься от неожиданно большого счёта?

Настройте в Yandex Cloud бюджет с лимитом и оповещениями до первого боевого запуска. Это страховка от ошибки в коде, которая шлёт запросы в цикле. Дополнительно сократите системный контекст, который уходит в каждый запрос, и протестируйте промпт на повторы — чем реже модель ошибается, тем меньше платных уточняющих обращений уходит впустую.