● Риск / Уровень: базовый / Q2 · 2026 / 17 из 90

Галлюцинации LLM.

модель уверенно врёт
Короткий
ответ
Галлюцинация — это когда LLM уверенно выдаёт правдоподобный, но ложный ответ. Источник — модель предсказывает «правдоподобное», а не «истинное». Лечится RAG с цитированием, tool use и проверочными слоями. Голую LLM в продакшне без верификации не пускаем.

01 Почему случаются

LLM обучена предсказывать наиболее вероятный токен. Если в обучающих данных её просили выглядеть уверенной — она выглядит уверенной. Если конкретного факта она не знает — генерирует правдоподобный.

Это не баг, это архитектура. Модель не знает, что она «не знает». Она знает только распределения вероятностей по токенам, и иногда самый вероятный токен — это вранье.

02 Типичные виды

  • Выдуманные ссылки. Модель генерирует URL, который выглядит реалистично, но не существует.
  • Несуществующие цифры. «По данным McKinsey, 73% компаний...» — данных нет.
  • Фантомные API. В сгенерированном коде вызовы функций, которых нет в библиотеке.
  • Сочинённые цитаты. «Как говорил Эйнштейн...» — Эйнштейн не говорил.
  • Несуществующие судебные дела. Известный кейс — юрист подал в суд презентацию с цитированием выдуманных Claude/GPT прецедентов.

03 Как лечить

  1. RAG с цитированием. Модель отвечает только по найденным документам и обязана давать ссылку.
  2. Tool use. Не знаешь — иди в БД / в поиск, не выдумывай.
  3. Промпт-инструкция. «Если не знаешь — скажи: не знаю».
  4. Reasoning-модели. Лучше калибруют уверенность.
  5. Evals. Регулярная проверка на наборе известных вопросов.
  6. HITL на критичных решениях.

04 В бизнесе

Никакой важный документ, юридический совет, медицинская рекомендация или финансовая транзакция не идут «от голой LLM». Всегда — обвязка из RAG, проверки и человека.

ПравилоЕсли стоимость одной ошибки > 10× стоимости верификации — обязателен HITL или верификация через tool. Без вариантов.
// 07

Частые вопросы

01 Можно ли совсем убрать галлюцинации?

Нет, но можно довести до 1-3% на конкретной задаче с RAG + evals + guardrails. Идеала нет.

02 Какая модель меньше галлюцинирует?

В 2026 — Claude Sonnet 4.5 и Opus 4.7 на сложных задачах. Reasoning-модели OpenAI o3 на математике.

03 Reasoning-модели врут меньше?

Да, заметно. Внутренний chain-of-thought даёт лучшую калибровку уверенности.

Понимаем — учим
работать с Галлюцинации LLM
внутри команды.

Час бесплатной диагностики: разбираем 2–3 ваших процесса и говорим прямо, где AI окупится за квартал, а где брать рано. Знания остаются у вашей команды.

Готовы поговорить?
@Aleksei_Shturbin Бот →