01 Как работает
В обычной LLM каждый токен проходит через все слои. В MoE — через роутер, который выбирает 2-3 наиболее подходящих эксперта из 8-32 на каждом слое. Результат — модель размером 200B, но инференс по цене ~20B.
Интуиция«Эксперты» внутри модели не строго специализированы (например, «математика» или «русский»). Это просто разные подсети, между которыми разнесли вычисления.
02 Какие модели используют MoE
- Mixtral 8x7B и 8x22B — open-source флагман.
- GPT-4, GPT-5 — известно из leak'ов и косвенно подтверждено.
- Claude — Anthropic не подтверждает, но эксперты уверены.
- DeepSeek V3 — 671B параметров, 37B активных.
- Llama 4 Maverick — Meta перешла на MoE в 2025.
03 Плюсы и минусы
Плюсы
- Качество как у большой модели, цена как у маленькой.
- Лучше масштабируется на больших объёмах данных.
Минусы
- Требует больше VRAM при inference (все эксперты в памяти).
- Сложнее обучать стабильно.
- Fine-tune через LoRA технически сложнее.
04 Что это значит для бизнеса
MoE-модели дешевле в инференсе при том же качестве. Если выбираете между двумя моделями одного качества и одна — MoE, другая — dense, берите MoE. На on-prem нужны GPU с большим VRAM.