01 Зачем нужен RAG
Проблема: вы хотите, чтобы LLM отвечала про ваши процессы, контракты, продукты. Но «голая» модель про это ничего не знает — она училась на интернете до 2024 года. Два пути:
- Fine-tune модель на своих данных. Дорого (тысячи долларов), устаревает с каждой сменой модели, не отвечает с цитатами.
- RAG. Загружаете свои документы в векторную базу, на каждый запрос ищете релевантные куски и подкладываете в промпт. Дёшево, обновляется в реальном времени, отвечает с пруфами.
В 95% бизнес-задач выбираем RAG. Fine-tuning — только когда RAG объективно не справляется (узкий жаргон, специфический стиль).
02 Как работает RAG-пайплайн
Стандартный пайплайн состоит из двух фаз:
Indexing (один раз)
- Chunking. Документы режутся на куски ~500-1000 токенов.
- Embedding. Каждый кусок превращается в вектор через модель эмбеддингов.
- Загрузка в vector DB (Qdrant, Pinecone, pgvector).
Retrieval + Generation (на каждый запрос)
- Запрос пользователя → эмбеддинг → поиск top-N похожих кусков.
- (Опционально) Reranker переранжирует — оставляет top-5.
- Куски кладутся в системный промпт LLM. Модель отвечает + указывает источники.
03 Где применяется в бизнесе
- Внутренний справочник. Сотрудник спрашивает «как оформить отпуск?» — ассистент находит регламент и отвечает со ссылкой.
- Поддержка клиентов L1. База FAQ + история тикетов → 60-80% запросов закрывает агент.
- Юристы. «Что писали в договоре с X про штрафы?» — ассистент находит все упоминания в архиве.
- Sales enablement. Менеджеру нужен ответ на вопрос клиента → ассистент находит в product docs + презентациях.
- Onboarding. Новый сотрудник задаёт вопросы 24/7 — ассистент учит на корпоративной базе.
04 Подводные камни
- Качество retrieval. Если плохо чанкуете или эмбеддинги слабые — модель отвечает по релевантному мусору. Главный точка для оптимизации.
- Стоимость токенов. Каждый запрос несёт 3-10K токенов контекста. На 10К запросов в день — заметные деньги.
- Свежесть данных. Кто-то обновил документ → надо переэмбедить. Нужен авто-пайплайн.
- Permissions. RAG не должен показывать пользователю чужие документы. Фильтр по правам — на уровне retrieval.
05 Когда RAG не нужен
- База маленькая (десятки документов). Можно просто положить всё в промпт — современные модели держат 200K+ токенов.
- Задача — рассуждение, а не факт. «Спланируй стратегию» — RAG не поможет, нужна reasoning-модель.
- Данные мультимедийные (видео, аудио без транскриптов). Сначала нужен Whisper + индексация транскриптов.