● Методология / Уровень: средний / Q2 · 2026 / 35 из 90

Chunking.

разделение документов на куски
Короткий
ответ
Chunking — это разрезание больших документов на куски ~500-1000 токенов перед индексацией в векторной БД. Качество чанкования — главный рычаг качества RAG. Плохой chunking → плохой поиск, никакая модель не спасёт.

01 Стратегии

  • Fixed-size. Каждый кусок ровно 500 токенов с overlap 50. Простой, работает.
  • По заголовкам. Раскалываем по структуре документа (Markdown headers, HTML h1-h4). Сохраняет смысл.
  • Semantic chunking. ИИ-модель сама находит границы смысла. Лучше всего, дороже.
  • Recursive. Сначала по разделам, потом по параграфам, потом по предложениям — пока не уложится.
  • Sliding window. С большим overlap (50-80%), чтобы любая мысль гарантированно попала в один из чанков целиком.

02 Какой размер выбрать

Зависит от типа документов:

  • Документы с короткими параграфами — 256-512 токенов.
  • Длинные технические тексты — 800-1200 токенов.
  • Код — по функциям/классам.
  • Таблицы — лучше отдельным chunk-типом.

03 Типичные ошибки

  • Слишком большие куски → модель путается, эмбеддинг размазывается по смыслам.
  • Слишком маленькие → теряется контекст.
  • Нет overlap → важная мысль режется надвое и не находится.
  • Игнорирование структуры документа — таблица режется на части, теряется ширина.
  • Метаданные не сохраняются — теряется источник, дата, автор.

04 Метаданные при chunking

К каждому chunk обязательно хранить: source (URL/файл), date, section title, page number, permissions. Это позволяет давать ссылки в ответах и фильтровать по правам.

// 07

Частые вопросы

01 Какой размер chunk оптимален?

500-1000 токенов с overlap 100-200. Дальше — экспериментируйте на своих документах.

02 Semantic chunking стоит?

Если RAG-качество критично — да. Прирост +10-20% часто оправдывает доплату за LLM-чанкование.

Понимаем — учим
работать с Chunking
внутри команды.

Час бесплатной диагностики: разбираем 2–3 ваших процесса и говорим прямо, где AI окупится за квартал, а где брать рано. Знания остаются у вашей команды.

Готовы поговорить?
@Aleksei_Shturbin Бот →