ElevenLabs представила STT-модель с задержкой менее 150 мс

Компания ElevenLabs выпустила Scribe v2 Realtime, новую модель Speech-to-Text, оптимизированную для задач, где важна минимальная задержка. Система предназначена для голосовых ассистентов, конференц-агентов и создания субтитров в реальном времени. Задержка обработки речи составляет менее 150 мс, модель поддерживает более 90 языков и демонстрирует точность 93,5 % на 30 популярных языках. Особое внимание уделено работе с аудиозаписями, содержащими фоновый шум, что делает Scribe v2 Realtime пригодной для корпоративного использования.

Одной из ключевых функций стала отрицательная задержка — предсказание следующего слова и знака препинания, что ускоряет транскрипцию и повышает плавность текста. Также реализовано автоматическое определение языка, распознавание голоса и полный контроль над фиксацией сегментов транскрипции. Модель уже доступна через API и соответствует стандартам безопасности и конфиденциальности, включая SOC 2 и GDPR, что делает её готовой к масштабному корпоративному внедрению.

По мнению экспертов, Scribe v2 Realtime может существенно ускорить внедрение голосовых ассистентов и улучшить качество субтитров в реальном времени, особенно в шумных или многоголосых средах.

Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Источник

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии