01 Как работает
Groq разработала собственный AI-чип LPU (Language Processing Unit). В отличие от NVIDIA GPU, LPU специализирован под inference транформерных моделей. Архитектура — детерминированная, без cache-промахов, с однородным дата-флоу.
Результат: на одной модели (Llama 4 70B) Groq выдаёт 300-500 токенов/сек, тогда как H100 GPU — 30-100. Это в 5-10x быстрее.
02 Доступные модели
- Llama 4 — все размеры.
- Mixtral 8x22B.
- DeepSeek R1 — reasoning open-source.
- Whisper Large — транскрипция аудио в реальном времени.
- Llama Guard — guardrails-модели.
03 Когда выбирать Groq
- Voice-агенты. Нужна латентность <500мс end-to-end. Без Groq невозможно.
- Real-time UX. Стриминг быстрее, чем пользователь читает.
- High-volume классификация. Дешевле GPU при равной нагрузке.
- Транскрипция аудио. Whisper Large в 10x быстрее real-time.
04 Цены
| Модель | Input / 1M | Output / 1M |
|---|---|---|
| Llama 4 70B | $0.59 | $0.79 |
| Llama 4 8B | $0.05 | $0.08 |
| Mixtral 8x22B | $0.24 | $0.24 |
| Whisper Large v3 | $0.04 за минуту аудио | — |