01 Как работает
Каждый шаг модель оценивает вероятности всех возможных следующих токенов. С temperature=0 она всегда берёт самый вероятный — поэтому ответ детерминированный (с поправкой на параллельный инференс). С temperature=1 — сэмплирует по распределению. С 2 — почти равномерно (бред).
02 Какую ставить
| Задача | Temperature | Почему |
|---|---|---|
| Классификация / извлечение | 0.0 | нужна воспроизводимость |
| JSON-вывод | 0.0-0.2 | точный формат |
| RAG-ответы | 0.1-0.3 | факты + чуть разнообразия |
| Чат-ассистент | 0.5-0.7 | живой стиль |
| Creative writing | 0.8-1.2 | разнообразие |
| Brainstorming | 1.0-1.5 | неожиданные идеи |
03 top_p и другие параметры
Помимо temperature есть параметр top_p (nucleus sampling) — модель сэмплирует только из топ-токенов, составляющих p% вероятности. Часто используют либо temperature, либо top_p, не оба одновременно.
top_p=0.1— почти детерминированно.top_p=0.9— креативно.
04 Подводные камни
- temperature=0 не = полная детерминированность. У провайдеров остаётся небольшая стохастичность из-за параллельного инференса.
- Высокий temperature × длинный ответ = накопление ошибок. Модель уходит в дрейф.
- temperature не лечит галлюцинации. Снижение до 0 уменьшает variance, но не правдоподобие фактов.