01 Архитектура
- Аудио-стрим с микрофона / SIP телефонии.
- Whisper или Deepgram в реальном времени.
- LLM с function calling для запросов в CRM, БД.
- TTS (ElevenLabs / Cartesia) с low-latency стримингом.
- Барджин (перебивание) — критический UX-элемент.
02 Готовые платформы
- Vapi.ai — полный конструктор voice-агентов.
- Bland AI — на $0.09/мин звонка, для outbound кампаний.
- LiveKit Agents — open-source инфра для voice.
- Retell AI — для контакт-центров.
- ElevenLabs Conversational — vertical integration.
03 В бизнесе
- Booking звонков (медицина, услуги, рестораны).
- L1 колл-центр — приветствие, классификация, базовые ответы.
- Outbound напоминания — оплата, запись, статус заказа.
- Голосовая навигация в продукте.
- IVR замена в крупных колл-центрах.
04 Экономика
~$0.05-0.20 за минуту звонка на стеке Whisper API + Claude Haiku + ElevenLabs. В колл-центре × 100 звонков/день = $10-40 в день — обычно дешевле минут оператора.