● Методология / Уровень: продвинутый / Q2 · 2026 / 25 из 93

Quantization.

Q: Стоит ли квантовать?

На on-prem — почти всегда. На API — провайдер уже сделал.

Q: Что лучше — AWQ или GPTQ?

AWQ обычно даёт чуть лучше качество. GPTQ — быстрее в производстве.

сжатие весов модели

Короткий
ответ ↳

Quantization — это сжатие весов модели с float16 до int8 или int4. Модель становится в 2-4x меньше, инференс быстрее, качество падает на 1-5%. Стандартный приём для запуска LLM локально или на одной GPU.

01 Зачем

Llama 4 70B в float16 — 140 GB VRAM. С int4 — 35 GB. Помещается на одной 48GB карте (например, RTX 6000 Ada). Скорость +2-3x. Качество просаживается на 2-5% — обычно приемлемо.

02 Форматы и инструменты

Формат	Для чего
GGUF	llama.cpp, бытовые GPU и CPU
AWQ	production-инференс, vLLM
GPTQ	классика, exllama
BitsAndBytes	HuggingFace, быстрый start

03 Когда стоит квантовать

On-prem deployment на ограниченном железе — почти всегда.
Edge-сценарии — телефоны, ноуты разработчиков.
Cost optimization — меньше VRAM = больше параллельных запросов.

Когда не нужно: API провайдер уже всё квантовал за вас.

04 Падение качества

int8 — практически без потерь (<1%).
int4 — 2-5% на большинстве задач.
int2 / int1 — экспериментально, потери 10%+.

// 05 · от практики

Как мы применяем Quantization в работе с клиентами

В практике «Зинин × Штурбин» мы внедряем Quantization в рабочие процессы команды — это часть формата программа для команды. На реальных задачах это GGUF int4, AWQ и подобное. Рядом разбираем LLM — термины в словаре связаны так же, как в работе.

Не консультируем абстрактно: команда уходит с навыком и рабочим процессом, который применяет сама. Посмотреть программы и цены →

// 07

Частые вопросы

01 Стоит ли квантовать?

На on-prem — почти всегда. На API — провайдер уже сделал.

02 Что лучше — AWQ или GPTQ?

AWQ обычно даёт чуть лучше качество. GPTQ — быстрее в производстве.

Понимаем — учим
работать с Quantization
внутри команды.

Час бесплатной диагностики: разбираем 2–3 ваших процесса и говорим прямо, где AI окупится за квартал, а где брать рано. Знания остаются у вашей команды.

Discovery call · 1 час @Aleksei_Shturbin