01 Зачем нужен
Голая LLM после pre-training умеет продолжать тексты, но не следовать инструкциям, не отказывать в опасном, не говорить вежливо. RLHF делает её полезным ассистентом.
Без RLHF: «Напиши стих про осень» → модель пишет ещё 5 вариантов аналогичных промптов вместо стиха. С RLHF: модель сразу пишет стих.
02 Как работает
- Модель генерирует несколько ответов на запрос.
- Человек выбирает лучший (или ранжирует).
- На тысячах сравнений обучается reward-модель — мини-нейросеть, оценивающая ответ.
- Через PPO или DPO основную модель доучивают максимизировать reward.
- Итерация: новые ответы → новые оценки → новая reward-модель.
03 Constitutional AI у Anthropic
Anthropic разработала вариацию — Constitutional AI. Вместо тысяч людей-ранжировщиков используется набор принципов («конституция»), по которому модель сама критикует и улучшает свои ответы. Дешевле и предсказуемее.
04 Что это значит для бизнеса
Обычная компания не делает свой RLHF — это миллионы долларов разметки. Вместо этого:
- Берёте готовую модель (она уже прошла RLHF у провайдера).
- Делаете fine-tune на своих данных.
- Применяете промпт-инжиниринг и guardrails.