Свой ИИ на своём сервере: данные остаются внутри

Локальный ИИ для конфиденциальных данных — это open-weight модель, которая крутится на вашем железе, и данные при этом физически остаются внутри периметра компании. Облачный чат отправляет каждый запрос на чужие серверы, и для медицины, юрфирм, банков такой маршрут запрещён политикой и регуляторами. Альтернатива — поднять модель на собственном VPS или на машине в офисе, где запросы обрабатываются локально.

Когда облако закрыто и почему

В работе с руководителями я часто вижу одну и ту же развилку. Команда уже распробовала облачный чат и хочет прогонять через него договоры, медкарты, переписку с клиентами, хотя юрист прямо говорит, что эти данные запрещено передавать третьей стороне. Всё это превращается в тихий риск: половина сотрудников копирует чувствительные куски в публичный сервис, а служба безопасности узнаёт об этом последней.

Граница простая. Если документ содержит сведения, которые компания обязана хранить внутри по закону или по договору, его место — на машине, которой вы управляете. Облачная модель удобна для черновиков, перевода, рерайта публичных текстов. Конфиденциальный контур требует другого решения, где инференс идёт на вашем железе, а наружу уходит только то, что вы сами разрешили.

  • Медицина и клиники: карты пациентов, диагнозы, анализы — данные особой категории.
  • Юридические фирмы: материалы дел, переписка с доверителями, документы под адвокатской тайной.
  • Банки и финтех: банковская тайна, паспортные данные, история движений по счетам.
  • Продуктовые команды: исходный код и архитектура под NDA, которые запрещено отдавать внешней модели.

Что значит «свой ИИ на своём сервере»

Под локальным ИИ я понимаю open-weight модель: разработчик выложил веса в открытый доступ, и эти веса можно скачать и запустить на собственной машине без обращения к чужому облаку. Запрос приходит, модель считает ответ прямо на вашем сервере, текст остаётся в пределах сети. Внешний канал тут вообще выключен, и это главное отличие от облачного чата.

Модели приходят в разных размерах. Чем больше модель, тем выше требования к памяти видеокарты и тем дороже железо. Спасает квантизация: веса сжимают до меньшей разрядности, и та же модель помещается в более скромную видеокарту с небольшой потерей точности. Это позволяет начать на одном сервере с одной-двумя картами, а вычислять масштаб уже под реальную нагрузку.

Точные цифры по памяти и скорости зависят от конкретной модели, степени сжатия и длины запросов, поэтому железо подбирают под замер на своих данных, отметая обещания из рекламы. Разумный путь — взять одну открытую модель среднего размера, прогнать на ней свои реальные документы и посмотреть, хватает ли качества и скорости ответа.

Как запустить локальную модель по шагам

  1. Опишите контур данных. Соберите список того, что запрещено выпускать наружу, и отметьте, кто внутри компании это подтверждает. Без этого списка любая архитектура повиснет в воздухе.
  2. Выберите open-weight модель под задачу и под бюджет железа. Для извлечения фактов из документов хватает модели среднего размера, для сложных рассуждений берут крупнее. Размер задаёт требования к видеокарте.
  3. Поднимите сервер с изоляцией. Машина с GPU стоит в офисе или на выделенном VPS, доступ — только из внутренней сети или через защищённый канал. Внешние запросы от модели наружу заблокированы на уровне сети.
  4. Добавьте слой маскирования ПДн. Перед тем как текст попадёт в модель и в логи, чувствительные поля заменяются на метки. Так даже внутренние логи остаются чистыми от персональных данных.
  5. Поставьте защитные ограждения. Опишите, какие запросы модель обрабатывает, а какие отклоняет, и что делать при попытке отправить данные за периметр. Это снимает класс ошибок ещё до того, как они дойдут до пользователя.
  6. Проверьте на своих документах. Прогоните реальные договоры, карты, переписку, сравните ответы с эталоном вручную и зафиксируйте, где модель ошибается. Запуск считается рабочим тогда, когда сотрудник видит пользу на своих файлах.

Я ставлю такую связку внутри команды и обучаю сотрудников работать с ней так, чтобы со временем конфиденциальный контур держался на ваших людях без внешнего подрядчика. Сервер остаётся под вашим управлением, а внешний подрядчик из схемы уходит.

Облачный ИИ и локальный: где проходит граница

Выбор между облаком и своим сервером упирается в три вещи: куда уходят данные, сколько это стоит на старте и кто отвечает за поддержку. Таблица ниже показывает развилку без рекламных обещаний.

КритерийОблачный ИИЛокальный ИИ
Где данныеНа серверах провайдераВнутри вашего периметра
Конфиденциальный контурЗапрещён политикой и регуляторамиДопустим, данные изолированы
Стартовые вложенияПодписка за обращенияПокупка или аренда железа с GPU
ПоддержкаНа стороне провайдераНа вашей команде или подрядчике
Выбор моделиКаталог провайдераЛюбая open-weight модель
Доступ при обрыве интернетаЗависит от связиРаботает в локальной сети

Для публичных текстов облако обычно дешевле на входе и снимает заботу о железе. Для медкарт, материалов дел и банковской тайны вопрос цены вторичен: маршрут через чужие серверы там закрыт, и локальный контур остаётся единственным допустимым вариантом. Многие компании держат оба маршрута сразу и разводят их по типу данных.

Главный риск здесь скрыт от глаз руководителя: сотрудники прогоняют чувствительные документы через публичный чат, потому что им так удобнее, и узнаёт об этом служба безопасности уже после утечки.

С чего начать руководителю

Первый шаг — честная карта данных. Соберите, какие документы команда уже прогоняет через ИИ и какие из них запрещено выпускать наружу. Эта карта сразу показывает, какой объём работы переходит в локальный контур и насколько срочно его поднимать. Дальше выбирается модель под железо, ставится изоляция сети, маскирование ПДн и защитные ограждения.

Я разбираю эту архитектуру с руководителями на программах, где мы вместе проходим путь от карты данных до работающего сервера и обучаем команду вести его без внешнего подрядчика. Цель простая: чтобы конфиденциальный контур остался внутри компании и держался на ваших людях.

Частые вопросы

Можно ли запустить локальный ИИ на офисном компьютере без сервера?

Для лёгких задач — извлечение фактов из коротких документов, простой рерайт — хватит рабочей станции с приличной видеокартой. Для постоянной нагрузки на несколько сотрудников лучше выделенная машина с GPU или арендованный VPS с видеокартой, где модель держится загруженной и отвечает быстро. Конкретные требования к памяти задаёт выбранная модель и степень её сжатия, поэтому железо подбирают под замер на ваших документах.

Open-weight модель уступает облачному чату по качеству?

На узких задачах — извлечение фактов из договоров и классификации обращений открытые модели среднего размера работают вровень с облаком. На сложных рассуждениях с длинным контекстом крупные облачные модели нередко впереди. Правильный ответ даёт замер: берёте открытую модель, прогоняете свои реальные документы и сравниваете с эталоном вручную.

Что такое маскирование ПДн и зачем оно при локальном запуске?

Маскирование ПДн — это замена персональных данных на метки перед тем, как текст попадёт в модель и в логи. Имена, паспортные данные, номера счетов заменяются на безличные маркеры, а после ответа подставляются обратно. Даже на своём сервере это полезно: внутренние логи и история запросов остаются чистыми от чувствительных сведений, и круг людей с доступом к сырым данным сужается.

Дорого ли держать собственный сервер с ИИ?

Стартовые вложения выше, чем у облачной подписки: нужна машина с видеокартой либо аренда VPS с GPU. Зато расход предсказуем и привязан к железу вместо числа обращений. Для компаний с большим потоком конфиденциальных документов локальный контур со временем выходит дешевле облака на единицу обработанного текста. Цены на железо и аренду меняются, поэтому сверьтесь на сайте провайдера перед расчётом.

Как гарантировать, что данные останутся внутри периметра?

Изоляция строится на уровне сети: сервер с моделью стоит во внутреннем контуре, исходящие запросы от него наружу заблокированы, доступ открыт только из вашей сети или через защищённый канал. Сверху ставятся защитные ограждения, которые отклоняют попытки отправить данные за периметр. Так модель физически лишена возможности утечь данные в чужое облако.

С чего начать внедрение локального ИИ в компании?

Начните с карты данных: какие документы команда уже прогоняет через ИИ и какие из них запрещено выпускать наружу. Эта карта покажет объём работы для локального контура. Дальше выбирается open-weight модель под железо, ставится изоляция сети, маскирование ПДн и защитные ограждения, после чего связка проверяется на ваших реальных документах. Этот путь можно пройти вместе на разборе в /programs/.

Разберём вашу ситуацию на Discovery-созвоне

Один час, бесплатно. Покажем, какие задачи в вашем случае отдать ИИ, а какие оставить людям.

Записаться на Discovery →

← Все статьи