Как обучить нейросеть на документах компании

Запрос «обучить нейросеть на наших документах» почти всегда означает другое: научить модель отвечать строго по вашим регламентам, договорам и инструкциям, причём со ссылкой на источник. Дообучать веса модели для этого избыточно и дорого. Рабочий путь — собрать RAG-систему: модель ищет нужный фрагмент в вашей базе и отвечает только из него. Ниже разберём, как это устроено и где лежат подводные камни.

Что это значит

TL;DR

«Обучить нейросеть на документах» обычно решают через RAG вместо дообучения весов. Вы складываете регламенты и инструкции в базу, модель находит подходящий кусок и отвечает строго из него со ссылкой на источник. Дообучение нужно редко и стоит дорого. Старт — с одной папки документов и одного отдела, где сотрудники чаще всего ищут ответы вручную.

Когда руководитель говорит «обучите нейросеть на наших документах», за этим стоит понятная боль: сотрудники тратят время на поиск ответа в десятках регламентов, новички задают одни и те же вопросы, а часть знаний живёт только в голове опытного коллеги. Хочется, чтобы модель знала вашу специфику и отвечала по ней, вместо абстрактных сведений из интернета.

Здесь важно развести два разных процесса. Дообучение (fine-tuning) меняет сами веса модели и нужно, когда вы хотите изменить стиль или формат ответов на тысячах примеров. Это дорого, требует данных и инфраструктуры, а главное — плохо подходит для фактов: модель всё равно склонна выдумывать. Для ответов по вашим документам подходит другой подход — поиск по базе с подстановкой найденного в запрос.

Этот подход называют RAG. Модель хранит ваши документы вне своих весов, в отдельной базе. Она получает вопрос, находит несколько релевантных фрагментов и отвечает строго на их основе, дополнительно показывая, из какого документа взят ответ. Так вы получаете и точность, и проверяемость: сотрудник видит источник и может перепроверить спорный момент.

Дообучение (fine-tuning): меняет поведение модели, нужно редко, дорого по данным и вычислениям
RAG: модель отвечает из найденных фрагментов вашей базы со ссылкой на источник
Для фактов по вашим регламентам почти всегда выбирают RAG
Ссылка на документ в ответе — обязательное требование, через него ловят ошибки

Как это работает

Под капотом RAG лежит простая идея. Все ваши документы режут на небольшие куски и превращают каждый в набор чисел — эмбеддинги, которые отражают смысл текста. Когда приходит вопрос, его тоже превращают в числа и ищут самые близкие по смыслу фрагменты. Найденное отдают языковой модели вместе с инструкцией отвечать только из этого материала.

Соберите документы в одном месте: регламенты, инструкции, договоры, частые вопросы и ответы
Разбейте каждый документ на смысловые куски и постройте по ним эмбеддинги для поиска
На вопрос сотрудника система находит несколько релевантных фрагментов из вашей базы
Языковая модель отвечает строго из найденного и показывает, из какого документа взят ответ
Сотрудник видит источник и при сомнении открывает оригинал одним кликом
Спорные ответы помечают, документ или формулировку правят, база становится точнее

// Главная развилка

Дообучение меняет стиль и поведение модели, RAG даёт ответы по фактам из ваших документов. Путаница между ними — частая причина выброшенного бюджета: компания платит за дорогое дообучение там, где хватило бы поиска по базе за десятки долларов в месяц.

С чего начать

Начните с одного отдела и одной папки документов вместо попытки оцифровать всю компанию разом. Возьмите участок, где сотрудники чаще всего ищут ответы вручную: поддержка, кадры, юристы, сервис. Соберите туда актуальные версии регламентов, выбросьте устаревшие редакции и черновики. Качество базы важнее её размера: на пятидесяти выверенных страницах система отвечает точнее, чем на тысяче противоречивых.

Этап	Что делаете	На что смотреть
Сбор документов	Складываете актуальные регламенты в одну папку	Дубли и старые редакции удаляете до загрузки
Подготовка базы	Режете на куски, строите эмбеддинги	Длинные документы бьёте по разделам, целиком
Проверка ответов	Прогоняете 30-50 реальных вопросов	Каждый ответ сверяете с источником в документе
Расширение	Добавляете второй отдел и новые документы	База растёт по мере доверия, постепенно

Доступ к моделям — отдельный вопрос для российской компании. Здесь работают и отечественные решения уровня GigaChat или YandexGPT, и зарубежные модели через корректный доступ. Выбор зависит от языка документов, чувствительности данных и того, готовы ли вы держать данные внутри контура. Для документов с коммерческой тайной чаще смотрят в сторону локального развёртывания.

● Discovery · 1 час · бесплатно

Покажите, в каких документах ваши сотрудники тонут чаще всего, и я на бесплатном часовом разборе подскажу, какую базу собрать первой и каким способом её подключить.

Прийти на Discovery →

Где осторожнее

Даже с поиском по базе модель остаётся способной к выдумке. Когда в найденных фрагментах ответа нет, она может уверенно собрать правдоподобную, но ложную формулировку. Это свойство называют галлюцинациями, и оно остаётся даже у самых сильных моделей. Защита проста: модель отвечает строго из найденного, при отсутствии данных честно говорит «в документах ответа нет», а каждый ответ сопровождает ссылкой на источник.

// Человек остаётся в контуре

Юридически значимые выводы, спорные трактовки договоров и любые решения с деньгами проходят через человека. Модель готовит черновик и показывает источник, финальную ответственность держит ваш сотрудник. Такой режим называют человек в контуре, и для документов он обязателен.

Коммерческая тайна и персональные данные: для них рассматривают локальное развёртывание модели
Устаревшие документы: одна старая редакция в базе ломает ответы по всему разделу
Ответы без источника: их отключают, чтобы сотрудник всегда мог перепроверить
Юридические трактовки: модель готовит черновик, решение принимает человек

Ещё одна тонкость — поддержание базы в актуальном состоянии. Регламенты меняются, выходят новые приказы, обновляются прайсы. Стоит забросить обновление, и через полгода система начинает отвечать по устаревшим правилам, а доверие к ней падает. Поэтому сразу назначают ответственного, который раз в неделю обновляет документы и просматривает спорные ответы. Это десять минут работы, а база остаётся живой.

Куда расти

Когда первый отдел получил рабочего помощника по документам, система расширяется естественно: к регламентам поддержки добавляются кадровые инструкции, к ним — техническая документация, и постепенно вся компания получает единую точку ответов. Сотрудники перестают дёргать опытных коллег по мелочам, а новички выходят на рабочий темп быстрее, потому что любой вопрос задают помощнику и сразу видят источник.

Стоимость такого решения держится скромной, пока вы остаётесь в рамках обычного поиска по базе: подписка на модель и инфраструктура для базы знаний обходятся в десятки долларов в месяц, точные цифры зависят от объёма документов и выбранной модели. Дорого становится только при дообучении весов, которое для ответов по документам требуется крайне редко.

Главная сложность здесь — собрать чистую базу и удержать дисциплину обновления. Самый частый провал выглядит так: компания загружает всё подряд вместе со старыми редакциями, получает противоречивые ответы и решает, что нейросеть бесполезна. На разборе процессов мы вместе смотрим на ваши документы, выбираем первый отдел и определяем, что отдать модели, а что оставить человеку.

Частые вопросы

Чем RAG отличается от дообучения нейросети?

Дообучение меняет сами веса модели и нужно, когда вы хотите изменить стиль или формат ответов на тысячах примеров. RAG веса модели оставляет как есть: она находит нужный фрагмент в вашей базе и отвечает строго из него со ссылкой на источник. Для ответов по фактам из ваших документов почти всегда выбирают RAG — он точнее и дешевле.

Сколько документов нужно, чтобы система заработала?

Хватает одной папки актуальных регламентов одного отдела. Качество важнее объёма: на пятидесяти выверенных страницах система отвечает точнее, чем на тысяче противоречивых. Сначала уберите устаревшие редакции и дубли, и только потом загружайте базу.

Может ли нейросеть выдумать ответ по нашим документам?

Да, такое свойство называют галлюцинациями, и полностью оно остаётся даже у сильных моделей. Защита проста: модель отвечает строго из найденных фрагментов, при отсутствии данных честно говорит, что ответа в документах нет, и сопровождает каждый ответ ссылкой на источник. Сотрудник всегда может перепроверить спорный момент.

Сколько стоит обучить нейросеть на документах компании?

Если речь про поиск по базе через RAG, расходы держатся в рамках десятков долларов в месяц: подписка на модель плюс инфраструктура для базы знаний. Точная сумма зависит от объёма документов и выбранной модели. Дорого становится только дообучение весов, которое для ответов по документам требуется крайне редко.

Что делать с конфиденциальными документами?

Для коммерческой тайны и персональных данных рассматривают локальное развёртывание модели, когда данные остаются внутри вашего контура. Для обычных регламентов и инструкций подойдут и облачные решения через корректный доступ. Выбор зависит от чувствительности конкретных документов.

Кто будет поддерживать базу знаний в актуальном состоянии?

Назначают одного ответственного сотрудника, который раз в неделю обновляет документы и просматривает спорные ответы. Это около десяти минут работы. Без обновления база через полгода начинает отвечать по устаревшим правилам, и доверие к системе падает.