01 Что это простыми словами
«Кошка», «кот», «котёнок» — для классического поиска это три разных слова. Для эмбеддингов — три близких точки в пространстве. Эмбеддинг кодирует смысл, а не буквы.
Технически: специальная модель (embedding model) принимает текст и выдаёт массив из 768-3072 чисел. Близкие тексты — близкие массивы (по косинусному расстоянию).
02 Где применяется
- RAG. Запрос → эмбеддинг → поиск top-N похожих документов.
- Семантический поиск. Кнопка «найти похожее» на любом сайте.
- Кластеризация. Сгруппировать 10K писем по темам без разметки.
- Recommendation. «Похожие товары» / «похожие лекции».
- Дедупликация. Найти близкие по смыслу записи в базе.
03 Модели эмбеддингов 2026
| Модель | Размер вектора | Где брать |
|---|---|---|
| OpenAI text-embedding-3-large | 3072 | API |
| Cohere Embed v3 | 1024 | API |
| BGE-M3 | 1024 | HuggingFace · open-source |
| e5-mistral | 4096 | HuggingFace · on-prem |
04 Подводные камни
- Не любая модель эмбеддингов работает на русском. Проверьте перед выбором.
- Эмбеддинги не понимают цифры и даты — для них «1000» и «1001» — близкие точки. Структурированную инфу храните отдельно.
- Чанкование критически влияет на качество. Поэкспериментируйте с размером кусков.