● Архитектура / Уровень: продвинутый / Q2 · 2026 / 24 из 93

MoE.

Mixture of Experts — модель из специалистов

Короткий
ответ ↳

MoE (Mixture of Experts) — это архитектура LLM, в которой модель состоит из десятков «экспертов», и на каждый запрос активируется только 2-3. Результат — модель размером с 200B параметров, но инференс по цене 20B. Mixtral, GPT-4, Claude — все используют MoE.

01 Как работает

В обычной LLM каждый токен проходит через все слои. В MoE — через роутер, который выбирает 2-3 наиболее подходящих эксперта из 8-32 на каждом слое. Результат — модель размером 200B, но инференс по цене ~20B.

Интуиция«Эксперты» внутри модели не строго специализированы (например, «математика» или «русский»). Это просто разные подсети, между которыми разнесли вычисления.

02 Какие модели используют MoE

Mixtral 8x7B и 8x22B — open-source флагман.
GPT-4, GPT-5 — известно из leak'ов и косвенно подтверждено.
Claude — Anthropic не подтверждает, но эксперты уверены.
DeepSeek V3 — 671B параметров, 37B активных.
Llama 4 Maverick — Meta перешла на MoE в 2025.

03 Плюсы и минусы

Плюсы

Качество как у большой модели, цена как у маленькой.
Лучше масштабируется на больших объёмах данных.

Минусы

Требует больше VRAM при inference (все эксперты в памяти).
Сложнее обучать стабильно.
Fine-tune через LoRA технически сложнее.

04 Что это значит для бизнеса

MoE-модели дешевле в инференсе при том же качестве. Если выбираете между двумя моделями одного качества и одна — MoE, другая — dense, берите MoE. На on-prem нужны GPU с большим VRAM.

// 05 · от практики

Как мы применяем MoE в работе с клиентами

В практике «Зинин × Штурбин» мы проектируем MoE под реальные процессы компании — это часть формата программа для команды. На реальных задачах это Mixtral 8x22B, GPT-4/GPT-5 и подобное. Рядом разбираем LLM — термины в словаре связаны так же, как в работе.

Не консультируем абстрактно: команда уходит с навыком и рабочим процессом, который применяет сама. Посмотреть программы и цены →

// 07

Частые вопросы

01 Можно ли fine-tune MoE?

Сложно. Mixtral можно через LoRA, GPT/Claude — никак (закрыто).

02 MoE на одной GPU?

Mixtral 8x7B квантизованный — да, на 24GB карте. 8x22B — нужны 2-4 GPU.

Понимаем — учим
работать с MoE
внутри команды.

Час бесплатной диагностики: разбираем 2–3 ваших процесса и говорим прямо, где AI окупится за квартал, а где брать рано. Знания остаются у вашей команды.

Discovery call · 1 час @Aleksei_Shturbin