YandexGPT через API оплачивается за токены — кусочки текста, на которые модель разбивает ваш запрос и свой ответ. Цена зависит от выбранной модели и складывается из входных токенов (то, что вы отправили) и выходных (то, что модель сгенерировала). Звучит сложно, но считается за пару минут. Разберём, как прикинуть стоимость тысячи обращений и где расход растёт незаметно для владельца.
За что платите
YandexGPT API считает деньги за токены: отдельно за то, что вы отправили модели, и отдельно за то, что она сгенерировала в ответ. Цена за тысячу токенов зависит от модели — лёгкая версия дешевле, старшая дороже и умнее. Точные тарифы в рублях сверяйте на странице Yandex Cloud, они меняются. Главный незаметный расход — длинный системный контекст, который уходит в каждый запрос.
Токен — это примерно три-четыре символа русского текста или часть слова. Когда вы отправляете модели запрос, она разбивает его на токены и считает их, потом так же считает свой ответ. Оплата идёт за сумму входных и выходных токенов по тарифу выбранной модели. Чем длиннее ваш запрос и развёрнутее ответ, тем больше токенов и тем выше счёт.
В работе с компаниями я часто вижу удивление: владелец считает цену по числу запросов, а Yandex Cloud выставляет счёт по токенам. Один запрос может стоить копейки, если это короткий вопрос, и заметно дороже, если вы каждый раз отправляете модели длинную инструкцию плюс большой документ. Поэтому считать надо именно в токенах, штуки обращений тут обманывают.
Yandex предлагает несколько версий модели. Лёгкая обходится дешевле за тысячу токенов и подходит для простых задач — классификации, коротких ответов, разметки. Старшая стоит дороже, но лучше держит сложный контекст и пишет связнее. Разумная тактика — гонять рутину на лёгкой модели, а на старшую переключаться только там, где качество критично.
- Входные токены: ваш запрос вместе с системной инструкцией и приложенными данными
- Выходные токены: текст, который модель сгенерировала в ответ
- Тариф зависит от версии модели: лёгкая дешевле, старшая дороже и умнее
- Системный контекст уходит в каждый запрос и оплачивается каждый раз
- Цены указаны за тысячу токенов и считаются в рублях
Как посчитать цену
Чтобы прикинуть стоимость до запуска, возьмите один типовой запрос и посчитайте его в токенах. Это даёт честную базу: дальше вы просто умножаете на ожидаемое число обращений в месяц. Расчёт занимает пять минут и спасает от неприятного первого счёта.
- Возьмите один реальный запрос, который пойдёт в продакшен: инструкция плюс данные пользователя
- Прикиньте его длину в токенах — грубо это число символов делёное на три-четыре
- Оцените длину типового ответа модели в токенах тем же способом
- Сложите входные и выходные токены, умножьте на тариф модели за тысячу токенов
- Умножьте стоимость одного запроса на ожидаемое число обращений в месяц
- Добавьте запас 30 процентов на разброс длины запросов и ответов
Если вы прикрепляете к каждому запросу длинную инструкцию на тысячу токенов, она уходит в модель при каждом обращении и оплачивается заново. На потоке в десятки тысяч запросов это превращается в основную статью счёта. Держите системную часть короткой и выносите справочные данные в отдельное хранилище через подход RAG, оставляя сами запросы короткими.
Где расход растёт
Счёт за API растёт в трёх местах, и все три легко упустить при планировании. Первое — длинный системный контекст. Вы один раз написали подробную инструкцию модели, она работает прекрасно, но прикрепляется к каждому запросу и оплачивается каждый раз. На малом потоке это незаметно, на большом становится главной строкой расхода.
| Что гоняем | Подходящая модель | Логика расхода |
|---|---|---|
| Классификация и разметка заявок | Лёгкая версия | Короткий ответ, минимум выходных токенов |
| Ответы клиентам в чате | Лёгкая или средняя | Зависит от длины диалога и контекста |
| Разбор длинных документов | Старшая версия | Много входных токенов, дорого на объёме |
| Генерация развёрнутых текстов | Старшая версия | Много выходных токенов, считайте заранее |
Второе место — повторные обращения из-за галлюцинаций. Модель иногда отвечает неточно, и приложение шлёт уточняющий запрос, потом ещё один. Каждая такая итерация — это новые оплаченные токены. Хорошо настроенный промпт с первого раза снижает число повторов и прямо экономит деньги.
Третье — отсутствие лимитов. Без потолка на расход одна ошибка в коде, которая шлёт запросы в цикле, способна за ночь сжечь заметную сумму. В Yandex Cloud есть бюджеты и оповещения — настройте их сразу, до первого боевого запуска. Эта страховка бесплатна и спасает от неприятного сюрприза в конце месяца.
Покажите, какую задачу вы хотите отдать YandexGPT, и я посчитаю реальную стоимость токенов под ваш поток и подскажу, какая модель подойдёт. Разберём это на бесплатном часовом созвоне.
Российская против зарубежной
Владельцы часто спрашивают, брать YandexGPT или зарубежную модель. Ответ зависит от трёх вещей: язык ваших текстов, чувствительность данных и удобство оплаты. YandexGPT хорошо держит русский, оплачивается рублями с российского юрлица и хранит данные внутри страны — это снимает половину вопросов комплаенса для компаний, работающих с персональными данными клиентов.
Зарубежные модели в части задач сильнее на сложных рассуждениях и длинном контексте, но упираются в оплату из России и в вопрос, где физически лежат ваши данные. Для чувствительной информации это серьёзный аргумент в пользу отечественного решения. Для нейтральных задач вроде генерации маркетинговых текстов разница в качестве может перевесить неудобства оплаты.
Если вы гоняете через модель персональные данные клиентов или коммерческую тайну, российское размещение и оплата рублями перевешивают разницу в качестве. Для нейтральных задач сравнивайте по цене токенов и качеству на ваших реальных примерах вместо громких названий моделей.
Практичный путь — протестировать обе на десятке ваших реальных запросов и сравнить и качество ответов, и стоимость токенов. Часто оказывается, что для рутины с головой хватает лёгкой версии YandexGPT, а зарубежную старшую модель подключают точечно под редкие сложные случаи. Такая связка держит расходы низкими и закрывает вопрос с данными.
Куда двигаться
Начните с расчёта на одном типовом запросе и тестового запуска на лёгкой модели с настроенным бюджетом и оповещениями. Неделя работы на реальном потоке покажет настоящую стоимость точнее любых прикидок: вы увидите средний размер запроса, число повторов и место, где расход концентрируется.
Дальше оптимизация идёт по понятным рычагам. Укорачиваете системный контекст, выносите справочные данные в отдельное хранилище вместо вставки в каждый запрос, переводите рутину на лёгкую модель и оставляете старшую только под сложные случаи. Каждый из этих шагов режет счёт и сохраняет качество там, где оно важно.
Главная сложность здесь — посчитать честно до запуска и выбрать модель под конкретную задачу, а самую дорогую на всякий случай. Самый частый провал выглядит так: компания подключает старшую модель ко всем задачам подряд, прикрепляет к каждому запросу огромную инструкцию и получает счёт, который убивает идею автоматизации. На разборе процессов мы вместе считаем токены под ваш поток и собираем связку, которая окупается.