01 Зачем
Llama 4 70B в float16 — 140 GB VRAM. С int4 — 35 GB. Помещается на одной 48GB карте (например, RTX 6000 Ada). Скорость +2-3x. Качество просаживается на 2-5% — обычно приемлемо.
02 Форматы и инструменты
| Формат | Для чего |
|---|---|
| GGUF | llama.cpp, бытовые GPU и CPU |
| AWQ | production-инференс, vLLM |
| GPTQ | классика, exllama |
| BitsAndBytes | HuggingFace, быстрый start |
03 Когда стоит квантовать
- On-prem deployment на ограниченном железе — почти всегда.
- Edge-сценарии — телефоны, ноуты разработчиков.
- Cost optimization — меньше VRAM = больше параллельных запросов.
Когда не нужно: API провайдер уже всё квантовал за вас.
04 Падение качества
- int8 — практически без потерь (<1%).
- int4 — 2-5% на большинстве задач.
- int2 / int1 — экспериментально, потери 10%+.