01 Что умеет мультимодальная модель
- Описать что на картинке. «Это график продаж, по оси Y — миллионы рублей».
- Прочитать текст со скриншота — встроенный OCR.
- Извлечь данные из PDF/договора со сканами и таблицами.
- Распознать UI — какие кнопки на экране, что делает страница.
- Транскрибировать и резюмировать аудио (у Gemini, GPT-4o).
- Понимать видео — что происходит, кто говорит, какой контекст.
02 В бизнесе
- OCR договоров без отдельного сервиса. Подаёте PDF — получаете структурированный JSON.
- Модерация UGC-контента — текст + картинки за один запрос.
- Auto-tag фотографий товаров в e-commerce.
- Анализ дашбордов и графиков — модель видит цифры и тренды.
- Computer use — управление компьютером по скриншотам.
- Voice-агенты — Whisper/audio in + LLM + TTS out.
03 Стоимость
Каждое изображение конвертируется во внутренний токен-эквивалент. На Claude — примерно 1000-2000 input-токенов на одно изображение, что даёт $0.003-0.006 за картинку. Видео и аудио — заметно дороже из-за длинных последовательностей.
04 Ограничения
- Мелкий шрифт на больших картинках читается плохо.
- Рукописный текст — нестабильно.
- Графики со множеством линий путают.
- Видео-понимание пока поверхностное (lone Gemini на длинных).