ElevenLabs представила Flash — новую модель синтеза речи, разработанную для сверхбыстрого выполнения. Flash это новейшая модель преобразования текста в речь от ElevenLabs, создана специально для скорости. Система может преобразовывать текст в речь всего за 75 миллисекунд, не включая сетевые и прикладные задержки, что делает её одной из самых быстрых моделей голосового AI на данный момент.
Компания разработала Flash с учетом приложений в реальном времени, особенно для разговорных AI-агентов, где важны быстрые времена отклика. Хотя модель уделяет приоритетное внимание скорости, ElevenLabs признает некоторые компромиссы: голоса Flash не такие выразительные, как те, которые генерируются более медленными моделями Turbo. Однако ElevenLabs считает, что большинство пользователей не заметят разницы в приложениях реального времени. Слепые тесты компании показывают, что Flash превосходит другие модели с ультранизкой задержкой на рынке.
Flash представлен в двух вариантах: v2 и v2.5. Базовая версия (v2) работает исключительно с английским контентом, в то время как v2.5 поддерживает 32 разных языка. Пользователи могут получить доступ к любой версии через платформу Conversational AI от ElevenLabs или напрямую через API, используя идентификаторы «eleven_flash_v2» и «eleven_flash_v2_5.»
Обe версии имеют одинаковую структуру ценообразования, взимая один кредит за каждые два символа обработанного текста. Пользователи могут начать работу с Flash через платформу Conversational AI компании или интегрировав её напрямую через API.
Источник
Источник: habr.com