01 Простыми словами
Представьте автодополнение в смартфоне, которое прочло почти весь интернет. LLM умеет ровно одно: получить кусок текста и предсказать, что в нём дальше. Этого достаточно, чтобы отвечать на вопросы, писать письма, программировать и рассуждать.
Модель не «понимает» в человеческом смысле — она статистически предсказывает наиболее вероятное продолжение. Но при достаточном масштабе (сотни миллиардов параметров, триллионы токенов в обучении) это предсказание становится неотличимо от рассуждения.
02 Как это работает
Архитектурно почти все современные LLM построены на трансформере (2017, Google). Цепочка такая:
- Токенизация. Текст разбивается на токены — куски ~4 символа. Слово «обучение» = 2–3 токена.
- Эмбеддинг. Каждый токен превращается в вектор — массив из ~4000 чисел.
- Внимание (attention). Модель смотрит на все токены сразу и решает, какие важны для следующего шага.
- Предсказание. На выходе — распределение вероятностей следующего токена. Один сэмплируется и подаётся обратно. Цикл повторяется.
Обучение делится на pre-training (читает интернет, учится продолжать тексты) и post-training (учится следовать инструкциям). Второй этап — то, что отличает GPT-3 от ChatGPT.
03 Где применяется
В бизнесе LLM почти никогда не работает «голой». Её оборачивают в один из четырёх паттернов:
- RAG-ассистент. Поиск по корпоративной базе → LLM → ответ со ссылками. Внутренний справочник, обработка договоров, поддержка клиентов. См. RAG.
- Агент с инструментами. LLM вызывает функции — отправить письмо, поставить задачу. См. MCP.
- Структурирование данных. Стенограмма → карточка CRM. Окупается за месяц.
- Кодогенерация. Claude Code, Cursor пишут код в репозитории.
04 Сравнение моделей 2026
Топ-4 LLM на момент Q2 2026 — практические оценки:
| Модель | Создатель | Сильна в | Контекст |
|---|---|---|---|
| Claude Sonnet 4.5 | Anthropic | код, длинный контекст, рассуждения | 200K |
| GPT-5 | OpenAI | универсальность, голос | 256K |
| Gemini 2.5 Pro | видео, аудио, гигантский контекст | 1M+ | |
| Llama 4 | Meta | open-source, on-prem | 128K |
На Personal-программе учим не привязываться к одной модели. Хорошая архитектура — роутер по задаче.
05 Ограничения, которые надо знать
- Галлюцинации. Модель уверенно сочиняет факты. Лечится RAG с цитатами.
- Контекстное окно. Модель помнит только текущий запрос.
- Дата отсечки. Знания заканчиваются датой обучения. Свежее — через поиск.
- Стоимость. Длинный контекст стоит линейно дороже. Закладывайте экономику.
- Недетерминированность. На один и тот же запрос — чуть разные ответы.