● Инструмент / Уровень: базовый / Q2 · 2026 / 36 из 90

Whisper.

транскрипция речи в текст от OpenAI
Короткий
ответ
Whisper — это open-source модель транскрипции речи в текст от OpenAI. 99 языков, точность 95%+. Можно использовать через API ($0.006/мин) или развернуть локально (бесплатно). Стандарт индустрии.

01 Что это

OpenAI выпустила Whisper в сентябре 2022 как open-source модель под MIT-лицензией. Это редкость для коммерческой AI-компании. С тех пор Whisper стал стандартом ASR (speech recognition) в индустрии.

В Q2 2026 — актуальная версия Whisper Large v3.

02 Где применять

  • Транскрипция Zoom/Meet звонков.
  • Voice-агенты (Whisper → LLM → TTS).
  • Subtitles для видео.
  • Голосовой ввод в продукте.
  • Аналитика колл-центра — все звонки в текст и поиск.

03 Варианты запуска

ГдеЦенаСкорость
OpenAI API$0.006/мин~real-time
Groq$0.04/мин10x real-time
Replicate$0.0001/секreal-time
On-prem GPU~бесплатно5-10x real-time

04 Альтернативы

  • Groq Whisper. Whisper API на чипах Groq — в 10x быстрее.
  • AssemblyAI, Deepgram. Платные, но дают diarization (кто говорит) и timestamps.
  • Yandex SpeechKit. Российский рынок, без compliance-проблем.
  • WhisperX — wrapper с лучшим diarization.
// 07

Частые вопросы

01 Whisper на русском?

Отлично работает. Точность ~95% на нормальной речи.

02 Сколько стоит локально?

Whisper large на одном GPU обрабатывает ~10x скорости реального времени. Окупается с ~100 часов аудио в месяц.

03 Может ли определять кто говорит?

Не из коробки. Для diarization используйте pyannote или WhisperX.

Понимаем — учим
работать с Whisper
внутри команды.

Час бесплатной диагностики: разбираем 2–3 ваших процесса и говорим прямо, где AI окупится за квартал, а где брать рано. Знания остаются у вашей команды.

Готовы поговорить?
@Aleksei_Shturbin Бот →