01 Как работает
Вместо обновления всех 70B параметров обучаем 10-50M в матрицах низкого ранга, добавляемых к каждому слою. Результат: адаптер размером 1-2% от модели, качество близкое к полному fine-tune на узких задачах.
02 QLoRA — экстремальная экономия
QLoRA = LoRA поверх квантованной модели. Можно fine-tune Llama 70B на одной 24GB карте (RTX 4090). Стоимость прогона — ~$50 за пару часов на rented GPU.
03 В бизнесе
- Один Llama 70B на сервере + несколько LoRA-адаптеров (юристы, маркетинг, поддержка).
- Переключение адаптера — без перезагрузки модели.
- Стоимость fine-tune Llama 70B на одной A100 — ~$50 за прогон.
- Storage — каждый адаптер 100-500MB.
Архитектура multi-LoRAvLLM и TGI поддерживают одновременную работу десятков LoRA-адаптеров на одной модели — каждый запрос использует свой.
04 Когда брать LoRA
- Узкая задача с собранным датасетом.
- Стиль/жаргон, который не описать промптом.
- Снижение латентности через специализированную мини-модель.
- Compliance — модель остаётся on-prem.