01 Что это
OpenAI выпустила Whisper в сентябре 2022 как open-source модель под MIT-лицензией. Это редкость для коммерческой AI-компании. С тех пор Whisper стал стандартом ASR (speech recognition) в индустрии.
В Q2 2026 — актуальная версия Whisper Large v3.
02 Где применять
- Транскрипция Zoom/Meet звонков.
- Voice-агенты (Whisper → LLM → TTS).
- Subtitles для видео.
- Голосовой ввод в продукте.
- Аналитика колл-центра — все звонки в текст и поиск.
03 Варианты запуска
| Где | Цена | Скорость |
|---|---|---|
| OpenAI API | $0.006/мин | ~real-time |
| Groq | $0.04/мин | 10x real-time |
| Replicate | $0.0001/сек | real-time |
| On-prem GPU | ~бесплатно | 5-10x real-time |
04 Альтернативы
- Groq Whisper. Whisper API на чипах Groq — в 10x быстрее.
- AssemblyAI, Deepgram. Платные, но дают diarization (кто говорит) и timestamps.
- Yandex SpeechKit. Российский рынок, без compliance-проблем.
- WhisperX — wrapper с лучшим diarization.