● Концепция / Уровень: базовый / Q2 · 2026 / 20 из 93

Мультимодальность.

одна модель — текст + изображения + аудио

Короткий
ответ ↳

Мультимодальная модель — это LLM, которая принимает на вход не только текст, но и картинки, аудио, видео. Современные топ-модели (Claude 4.5, GPT-5, Gemini 2.5) — все мультимодальны. Один API — любой формат.

01 Что умеет мультимодальная модель

Описать что на картинке. «Это график продаж, по оси Y — миллионы рублей».
Прочитать текст со скриншота — встроенный OCR.
Извлечь данные из PDF/договора со сканами и таблицами.
Распознать UI — какие кнопки на экране, что делает страница.
Транскрибировать и резюмировать аудио (у Gemini, GPT-4o).
Понимать видео — что происходит, кто говорит, какой контекст.

02 В бизнесе

OCR договоров без отдельного сервиса. Подаёте PDF — получаете структурированный JSON.
Модерация UGC-контента — текст + картинки за один запрос.
Auto-tag фотографий товаров в e-commerce.
Анализ дашбордов и графиков — модель видит цифры и тренды.
Computer use — управление компьютером по скриншотам.
Voice-агенты — Whisper/audio in + LLM + TTS out.

03 Стоимость

Каждое изображение конвертируется во внутренний токен-эквивалент. На Claude — примерно 1000-2000 input-токенов на одно изображение, что даёт $0.003-0.006 за картинку. Видео и аудио — заметно дороже из-за длинных последовательностей.

04 Ограничения

Мелкий шрифт на больших картинках читается плохо.
Рукописный текст — нестабильно.
Графики со множеством линий путают.
Видео-понимание пока поверхностное (lone Gemini на длинных).

// 05 · от практики

Как мы применяем Мультимодальность в работе с клиентами

В практике «Зинин × Штурбин» мы разбираем Мультимодальность на практике вашего бизнеса — это часть формата личное обучение фаундера. На реальных задачах это анализ скриншотов, распознавание документов и подобное. Рядом разбираем Vision-модели — термины в словаре связаны так же, как в работе.

Не консультируем абстрактно: команда уходит с навыком и рабочим процессом, который применяет сама. Посмотреть программы и цены →

// 07

Частые вопросы

01 Что лучше для картинок — Claude или GPT?

Сопоставимо. Claude чуть точнее на текстовых документах, GPT — на креативе.

02 Сколько стоит картинка?

~1000-2000 input-токенов на изображение. На Claude — $0.003-0.006 за картинку.

03 Можно ли передать сразу 10 картинок?

Да. Лимит — контекстное окно. На Claude 200K можно передать 50+ изображений.

Понимаем — учим
работать с Мультимодальность
внутри команды.

Час бесплатной диагностики: разбираем 2–3 ваших процесса и говорим прямо, где AI окупится за квартал, а где брать рано. Знания остаются у вашей команды.

Discovery call · 1 час @Aleksei_Shturbin