01 Стратегии
- Fixed-size. Каждый кусок ровно 500 токенов с overlap 50. Простой, работает.
- По заголовкам. Раскалываем по структуре документа (Markdown headers, HTML h1-h4). Сохраняет смысл.
- Semantic chunking. ИИ-модель сама находит границы смысла. Лучше всего, дороже.
- Recursive. Сначала по разделам, потом по параграфам, потом по предложениям — пока не уложится.
- Sliding window. С большим overlap (50-80%), чтобы любая мысль гарантированно попала в один из чанков целиком.
02 Какой размер выбрать
Зависит от типа документов:
- Документы с короткими параграфами — 256-512 токенов.
- Длинные технические тексты — 800-1200 токенов.
- Код — по функциям/классам.
- Таблицы — лучше отдельным chunk-типом.
03 Типичные ошибки
- Слишком большие куски → модель путается, эмбеддинг размазывается по смыслам.
- Слишком маленькие → теряется контекст.
- Нет overlap → важная мысль режется надвое и не находится.
- Игнорирование структуры документа — таблица режется на части, теряется ширина.
- Метаданные не сохраняются — теряется источник, дата, автор.
04 Метаданные при chunking
К каждому chunk обязательно хранить: source (URL/файл), date, section title, page number, permissions. Это позволяет давать ссылки в ответах и фильтровать по правам.