01 Что умеют
- OCR — извлекают текст из картинок, скринов, PDF.
- Описывают сцены, считают объекты, идентифицируют людей в общих категориях.
- Анализируют графики, диаграммы, дашборды.
- Распознают UI и подсказывают тесты / автоматизацию.
- Сравнивают изображения «до и после».
- Извлекают структурированные данные из бумажных документов и сканов.
02 Лучшие vision-модели 2026
| Модель | Сильна в |
|---|---|
| Claude Sonnet 4.5 | документы, OCR, UI |
| GPT-5 | универсальность, креатив |
| Gemini 2.5 Pro | видео и долгий контекст |
| Llama 4 Vision | open-source, on-prem |
| Pixtral 12B (Mistral) | лёгкая open-source |
03 Лимиты и подводные камни
- Плохо считают мелкие детали на больших картинках.
- Не всегда правильно читают рукописный текст.
- Графики со множеством линий путают.
- Лица — модели сознательно избегают идентификации конкретных людей.
04 Кейсы в бизнесе
- Договоры со сканами. Vision-LLM извлекает поля даже из плохо сосканированных страниц.
- Чеки и накладные. Распознавание и автоматический бух-учёт.
- Контроль качества. Vision-модель смотрит фото с производства, помечает дефекты.
- SMM-модерация. Проверка постов на нарушение бренд-гайда.