Как выбрать нейросеть под задачу без зоопарка вкладок

Выбор нейросети начинается с задачи, и только потом доходит до названия модели. Сначала вы делите внутреннюю работу на классы по сложности, чувствительности данных, объёму и требуемой скорости, а потом под каждый класс подбираете большую языковую модель по этим четырём критериям. Так десять открытых вкладок с разными чатами схлопываются в одну осознанную карту соответствия.

Рамка вместо зоопарка

TL;DR

Чтобы выбрать нейросеть под задачу, разложите её по четырём критериям: сложность рассуждения, чувствительность данных, объём запросов и требуемая задержка. Сложное и дорогое в случае ошибки отдавайте топовой рассуждающей модели, массовую дешёвую рутину — экономной модели по объёму, чувствительное — на закрытый контур. Одна модель «на всё» проигрывает этой карте почти всегда.

В работе с фаундерами я часто вижу одну и ту же картину. Команда открывает десяток вкладок с разными чатами, гоняет один и тот же запрос по очереди в каждый и выбирает ответ, который субъективно понравился больше. Всё это превращается в зоопарк инструментов вместо системы, в случайные счета за токены и в ощущение, что нейросети помогают как-то непонятно.

Корень проблемы в том, что выбор идёт от модели вместо задачи. Человек слышит про новый флагман, открывает его и пытается решить им всё подряд, включая то, для чего хватило бы дешёвой модели, и то, что вообще нельзя отправлять во внешний сервис. Правильный порядок обратный: сначала вы описываете задачу и её свойства, потом подбираете под неё инструмент.

// Четыре критерия выбора

Любую задачу для нейросети можно описать четырьмя свойствами. Сложность рассуждения: типовой текст либо многошаговая логика с высокой ценой ошибки. Чувствительность данных: публичные тексты либо персоналка и коммерческая тайна. Объём: разовый запрос либо тысячи однотипных в день. Задержка: ответ за секунды для живого диалога либо фоновая пакетная обработка. Эти четыре оси задают весь выбор.

Четыре критерия выбора

Первый критерий — сложность рассуждения. Часть работы внутри команды это типовой текст: разметка обращений, черновики писем, краткое содержание документов, перевод. Здесь любая современная модель среднего класса справится, и переплата за флагман бессмысленна. Другая часть требует длинных цепочек логики: разбор противоречивых требований, юридический и финансовый анализ, сложный код. Под неё берут топовую рассуждающую модель, потому что её ошибка обходится дороже разницы в цене.

Второй критерий — чувствительность данных. Публичные и обезличенные тексты можно гонять через любой удобный облачный сервис. Персональные данные клиентов, договоры и коммерческую тайну отдавайте наружу только после обезличивания либо держите такую нагрузку на закрытом контуре. Этот критерий часто перевешивает остальные: дешёвая модель теряет смысл, если вместе с экономией вы отдаёте чужие персональные данные в незнакомую юрисдикцию.

Третий критерий — объём. Разовый запрос аналитика и поток в тысячи однотипных запросов в день это разные экономики. На большом потоке решающей становится цена за токен: разница в доли копейки за запрос умножается на объём и превращается в заметную сумму месячного счёта. Поэтому массовую рутину сажают на экономную модель, даже когда флагман отвечает чуть аккуратнее.

Четвёртый критерий — задержка. Для живого диалога с клиентом важна задержка p95: ответ нужен за секунды, иначе разговор рассыпается. Для фоновой пакетной обработки скорость почти безразлична, зато важна цена за объём. Эти два режима тянут выбор в разные стороны, и держать их на одной модели ради единообразия редко оправдано.

Эти четыре критерия редко работают по одному. Чаще они складываются в профиль задачи и тянут выбор каждый в свою сторону. Живой диалог с клиентом, где всплывают его персональные данные, сразу сочетает требование низкой задержки и высокую чувствительность: вам нужна быстрая модель, и при этом такой поток лучше держать на контуре, который вы контролируете. Массовая разметка обращений сводит вместе большой объём и низкую сложность, поэтому выигрывает дешёвая модель среднего класса. Когда вы научитесь читать задачу сразу по всем четырём осям, выбор перестанет ощущаться как угадывание и станет коротким расчётом.

Сложность рассуждения: типовой текст требует среднего класса, многошаговая логика — топовой рассуждающей модели.
Чувствительность данных: публичное идёт в облако, персоналка и коммерческая тайна — на закрытый контур либо после обезличивания.
Объём: на тысячах запросов в день решает цена за токен, на разовых — качество ответа.
Задержка: живой диалог требует быстрого ответа, фоновая обработка терпит и выигрывает на цене.
Мультимодальность: задачи с картинками, голосом и файлами сужают выбор до моделей, которые эти форматы держат внутри себя.

Карта задач и моделей

Когда задача разложена по четырём критериям, выбор сужается до узкого набора кандидатов. Удобно держать перед глазами карту, которая связывает класс работы с типом модели. Она независима от конкретного бренда: флагманы меняются каждые несколько месяцев, а сами классы задач остаются прежними, и карта продолжает работать.

Класс задачи	Тип модели	Главный критерий
Массовая текстовая рутина: разметка, теги, извлечение полей	Экономная модель среднего класса	Цена за токен на объёме
Юридический и финансовый разбор высокой цены ошибки	Топовая рассуждающая модель	Качество логики
Живой диалог с клиентом в реальном времени	Быстрая модель с низкой задержкой	Задержка p95
Работа с картинками, голосом и файлами	Мультимодальная модель	Поддержка форматов
Персональные данные и коммерческая тайна	Открытые веса на закрытом контуре	Чувствительность данных
Разбор объёмных документов и техдокументации	Модель с большим контекстным окном	Поведение на длинном входе

Карту читают сверху вниз: вы находите строку, которая ближе всего к вашей задаче, и берёте тип модели из соседней колонки. Под каждый тип на рынке есть несколько конкретных моделей от разных провайдеров, и здесь уже вступает фактор цены, юрисдикции и удобства интеграции. Цены меняются часто, поэтому конкретные ставки сверяйте на сайтах провайдеров перед расчётом бюджета.

// Про мультимодальность и контекст

Две оси сужают выбор сильнее остальных. Мультимодальность нужна, когда модель обязана видеть картинку, слышать голос или читать загруженный файл: такие задачи решают только модели, которые держат эти форматы внутри себя. Размер контекстного окна важен для объёмных документов: на пределе окна качество ответа у топовых моделей деградирует мягче, и для длинных договоров эта разница заметна.

План на один слой

Зоопарк вкладок лечится единым слоем доступа к моделям. Это одна точка входа, через которую запросы маршрутизируются по классу задачи: дешёвую рутину слой отправляет в экономную модель, сложное и дорогое — в топовую, чувствительное — на закрытый контур. Команда работает с одним интерфейсом, а смена модели под задачу стоит одной строки настройки.

Выпишите реальные задачи, которые команда уже отдаёт нейросетям, и сгруппируйте их в классы по схожести работы.
Каждый класс разложите по четырём критериям: сложность, чувствительность данных, объём, требуемая задержка.
Под каждый класс подберите тип модели по карте соответствия, а под тип — конкретную модель с поправкой на цену и юрисдикцию.
Поставьте единый слой доступа, чтобы все запросы шли через одну точку входа с маршрутизацией по классу.
Настройте обезличивание перед любым внешним вызовом для классов с персональными данными и коммерческой тайной.
Зафиксируйте карту в коротком регламенте, чтобы команда понимала, какой класс задач в какую модель уходит и почему.

После такого разбора десять вкладок схлопываются в осознанную карту, где каждый класс работы привязан к своей модели по понятной причине. Команда перестаёт выбирать инструмент на ощупь и перестаёт переплачивать за флагман на рутине. Счёт за токены становится предсказуемым, потому что вы видите, какой поток куда идёт.

Слой доступа даёт ещё один тихий выигрыш — наблюдаемость. Через одну точку входа видно, сколько запросов уходит в каждую модель, какие из них дорогие и где поток внезапно вырос. Это превращает выбор нейросети из разовой развилки в управляемый процесс: вы замечаете, что новый класс задач вылез за пределы своей модели, и переключаете его одной строкой настройки. Без единого слоя такие сигналы тонут в десятке разрозненных вкладок, и команда узнаёт о проблеме только из неожиданного счёта в конце месяца.

● Discovery · 1 час · бесплатно

Если у вас уже открыт десяток вкладок с разными чатами и непонятно, какую задачу куда направить, мы разбираем это на discovery-созвоне и помогаем собрать карту соответствия под вашу команду.

Прийти на Discovery →

Частые ошибки выбора

Самая частая ошибка — выбор одной модели «на всё». Команда находит флагман, который хорошо справился с одной задачей, и сажает на него весь поток. В итоге она переплачивает за топовую модель на типовой рутине и одновременно гонит через внешний облачный сервис данные, которым там делать нечего. Карта соответствия снимает обе проблемы сразу.

Выбор по громкости релиза: модель берут потому, что про неё все говорят, хотя под конкретный класс задач сильнее другая.
Игнорирование чувствительности данных: дешёвая модель экономит копейки, пока вместе с экономией наружу уходит персоналка клиентов.
Экономия там, где ошибка дорогая: юридический разбор сажают на слабую модель ради цены, и одна ошибка съедает всю экономию.
Переплата на рутине: тысячи однотипных запросов гонят через флагман, хотя средний класс справился бы за долю стоимости.
Отсутствие единой точки входа: каждый сотрудник держит свой набор вкладок, и команда теряет контроль над тем, какие данные куда уходят.

Вопрос «какую нейросеть выбрать» почти всегда оказывается вопросом «какую задачу куда направить». Как только это понимают — перестают переплачивать за флагман на рутине и перестают экономить там, где ошибка стоит дорого.

Хорошая новость в том, что карта живёт дольше любого конкретного флагмана. Модели сменяют друг друга, цены ходят вверх и вниз, появляются новые провайдеры, а классы задач внутри вашей команды остаются прежними. Один раз построив рамку из четырёх критериев и карту соответствия, вы меняете внутри неё конкретные модели по одной строке настройки. С этого мы и начинаем разбор на программах практики и на discovery-созвоне: учим команду думать от задачи к модели, чтобы выбор перестал зависеть от очередного громкого релиза.

Частые вопросы

Можно ли обойтись одной нейросетью на все задачи?

Иногда да, для очень узкой команды с однородной работой. Но как только задачи расходятся по сложности и чувствительности данных, одна модель начинает проигрывать: за рутину вы переплачиваете как за флагман, а сложное и чувствительное тянете моделью, которая для этого слабовата. Карта соответствия из четырёх критериев почти всегда выгоднее.

С чего начать выбор нейросети под задачу?

Сначала выпишите реальные задачи, которые команда уже отдаёт нейросетям, и сгруппируйте их в классы. Потом каждый класс разложите по четырём критериям: сложность рассуждения, чувствительность данных, объём запросов и требуемая задержка. Под каждый класс по этим свойствам подбирается свой тип модели.

Как понять, нужна ли мне дорогая рассуждающая модель?

Смотрите на цену ошибки и на длину логики. Если задача это многошаговое рассуждение — юридический разбор, финансовый расчёт, сложный код — и ошибка обойдётся дорого, топовая рассуждающая модель окупает разницу в цене. Для типового текста и черновиков хватит модели среднего класса.

Что делать с задачами, где есть персональные данные клиентов?

Такие задачи относите к классу повышенной чувствительности. Отправляйте тексты во внешний сервис только после обезличивания: маски на имена, телефоны, счета и адреса. Персоналку и коммерческую тайну держите на закрытом контуре с открытыми весами, чтобы трафик оставался внутри вашего периметра.

Как сравнивать цены, если они постоянно меняются?

Сравнивайте по стоимости за токен и умножайте на реальный объём вашего потока, тогда видно настоящую цифру месячного счёта. Конкретные ставки сверяйте на сайтах провайдеров перед расчётом бюджета — они меняются часто. Опорный принцип остаётся: рутину на дешёвую модель, дорогое в случае ошибки — на топовую.

Зачем нужен единый слой доступа к моделям?

Он превращает зоопарк вкладок в одну точку входа. Запросы маршрутизируются по классу задачи: дешёвая рутина идёт в экономную модель, сложное — в топовую, чувствительное — на закрытый контур. Команда работает с одним интерфейсом, смена модели под задачу стоит одной строки настройки, а вы видите, какой поток данных куда уходит.