● Концепция / Уровень: базовый / Q2 · 2026 / 20 из 90

Мультимодальность.

одна модель — текст + изображения + аудио
Короткий
ответ
Мультимодальная модель — это LLM, которая принимает на вход не только текст, но и картинки, аудио, видео. Современные топ-модели (Claude 4.5, GPT-5, Gemini 2.5) — все мультимодальны. Один API — любой формат.

01 Что умеет мультимодальная модель

  • Описать что на картинке. «Это график продаж, по оси Y — миллионы рублей».
  • Прочитать текст со скриншота — встроенный OCR.
  • Извлечь данные из PDF/договора со сканами и таблицами.
  • Распознать UI — какие кнопки на экране, что делает страница.
  • Транскрибировать и резюмировать аудио (у Gemini, GPT-4o).
  • Понимать видео — что происходит, кто говорит, какой контекст.

02 В бизнесе

  • OCR договоров без отдельного сервиса. Подаёте PDF — получаете структурированный JSON.
  • Модерация UGC-контента — текст + картинки за один запрос.
  • Auto-tag фотографий товаров в e-commerce.
  • Анализ дашбордов и графиков — модель видит цифры и тренды.
  • Computer use — управление компьютером по скриншотам.
  • Voice-агенты — Whisper/audio in + LLM + TTS out.

03 Стоимость

Каждое изображение конвертируется во внутренний токен-эквивалент. На Claude — примерно 1000-2000 input-токенов на одно изображение, что даёт $0.003-0.006 за картинку. Видео и аудио — заметно дороже из-за длинных последовательностей.

04 Ограничения

  • Мелкий шрифт на больших картинках читается плохо.
  • Рукописный текст — нестабильно.
  • Графики со множеством линий путают.
  • Видео-понимание пока поверхностное (lone Gemini на длинных).
// 07

Частые вопросы

01 Что лучше для картинок — Claude или GPT?

Сопоставимо. Claude чуть точнее на текстовых документах, GPT — на креативе.

02 Сколько стоит картинка?

~1000-2000 input-токенов на изображение. На Claude — $0.003-0.006 за картинку.

03 Можно ли передать сразу 10 картинок?

Да. Лимит — контекстное окно. На Claude 200K можно передать 50+ изображений.

Понимаем — учим
работать с Мультимодальность
внутри команды.

Час бесплатной диагностики: разбираем 2–3 ваших процесса и говорим прямо, где AI окупится за квартал, а где брать рано. Знания остаются у вашей команды.

Готовы поговорить?
@Aleksei_Shturbin Бот →