● Архитектура / Уровень: продвинутый / Q2 · 2026 / 39 из 90

Voice agent.

голосовой ассистент на LLM
Короткий
ответ
Voice agent — это голосовой агент на стеке Whisper + LLM + TTS. Клиент говорит → транскрибируется → LLM думает → TTS отвечает. Целевая латентность — <800мс end-to-end.

01 Архитектура

  1. Аудио-стрим с микрофона / SIP телефонии.
  2. Whisper или Deepgram в реальном времени.
  3. LLM с function calling для запросов в CRM, БД.
  4. TTS (ElevenLabs / Cartesia) с low-latency стримингом.
  5. Барджин (перебивание) — критический UX-элемент.

02 Готовые платформы

  • Vapi.ai — полный конструктор voice-агентов.
  • Bland AI — на $0.09/мин звонка, для outbound кампаний.
  • LiveKit Agents — open-source инфра для voice.
  • Retell AI — для контакт-центров.
  • ElevenLabs Conversational — vertical integration.

03 В бизнесе

  • Booking звонков (медицина, услуги, рестораны).
  • L1 колл-центр — приветствие, классификация, базовые ответы.
  • Outbound напоминания — оплата, запись, статус заказа.
  • Голосовая навигация в продукте.
  • IVR замена в крупных колл-центрах.

04 Экономика

~$0.05-0.20 за минуту звонка на стеке Whisper API + Claude Haiku + ElevenLabs. В колл-центре × 100 звонков/день = $10-40 в день — обычно дешевле минут оператора.

// 07

Частые вопросы

01 Сколько стоит минута?

~$0.05-0.20 на стеке Whisper API + Claude + ElevenLabs. В колл-центре X 100 звонков/день = $10-40.

02 Можно ли на русском?

Да. Whisper и ElevenLabs отлично работают на русском.

03 Барджин (перебивание) важно?

Критично. Без барджина агент звучит «как робот» и пользователи бросают звонок.

Понимаем — учим
работать с Voice agent
внутри команды.

Час бесплатной диагностики: разбираем 2–3 ваших процесса и говорим прямо, где AI окупится за квартал, а где брать рано. Знания остаются у вашей команды.

Готовы поговорить?
@Aleksei_Shturbin Бот →