● Методология / Уровень: продвинутый / Q2 · 2026 / 25 из 90

Quantization.

сжатие весов модели
Короткий
ответ
Quantization — это сжатие весов модели с float16 до int8 или int4. Модель становится в 2-4x меньше, инференс быстрее, качество падает на 1-5%. Стандартный приём для запуска LLM локально или на одной GPU.

01 Зачем

Llama 4 70B в float16 — 140 GB VRAM. С int4 — 35 GB. Помещается на одной 48GB карте (например, RTX 6000 Ada). Скорость +2-3x. Качество просаживается на 2-5% — обычно приемлемо.

02 Форматы и инструменты

ФорматДля чего
GGUFllama.cpp, бытовые GPU и CPU
AWQproduction-инференс, vLLM
GPTQклассика, exllama
BitsAndBytesHuggingFace, быстрый start

03 Когда стоит квантовать

  • On-prem deployment на ограниченном железе — почти всегда.
  • Edge-сценарии — телефоны, ноуты разработчиков.
  • Cost optimization — меньше VRAM = больше параллельных запросов.

Когда не нужно: API провайдер уже всё квантовал за вас.

04 Падение качества

  • int8 — практически без потерь (<1%).
  • int4 — 2-5% на большинстве задач.
  • int2 / int1 — экспериментально, потери 10%+.
// 07

Частые вопросы

01 Стоит ли квантовать?

На on-prem — почти всегда. На API — провайдер уже сделал.

02 Что лучше — AWQ или GPTQ?

AWQ обычно даёт чуть лучше качество. GPTQ — быстрее в производстве.

Понимаем — учим
работать с Quantization
внутри команды.

Час бесплатной диагностики: разбираем 2–3 ваших процесса и говорим прямо, где AI окупится за квартал, а где брать рано. Знания остаются у вашей команды.

Готовы поговорить?
@Aleksei_Shturbin Бот →