Американский стартап Hume AI представил Octave 2 — новую модель генерации речи, которую уже называют самой быстрой на рынке. Заявленная задержка составляет менее 200 миллисекунд, то есть речь формируется практически в реальном времени. Это открывает возможности для чат-ботов, голосовых ассистентов и любых интерактивных систем, где важна естественная пауза между репликами.
Octave 2 свободно работает на 11 языках, среди которых русский, английский, французский, испанский, китайский и другие. Модель умеет клонировать голоса, копируя тембр говорящего с короткого образца, менять голос под нужный пол, возраст и интонации, управлять эмоциями — от спокойного тона до ярко выраженного эмоционального — и даже редактировать фонемы, чтобы добиться точного произношения редких слов, имён или брендов.
По сравнению с первой версией Octave новая модель стала примерно на 40 % быстрее, а стоимость генерации снизилась почти вдвое. Улучшилось и качество звучания — от чёткости дикции до передачи интонаций.
Octave 2 уже доступна для тестирования прямо на сайте Hume AI и через API для разработчиков. В блоге компании выложены примеры аудио и видео, демонстрирующие возможности модели. С запуском Octave 2 Hume AI стремится снять главный барьер в TTS — задержку. Теперь генерация речи происходит настолько быстро, что становится возможным естественный диалог человека и машины без привычных пауз.
Хотите быть в курсе важных новостей из мира ИИ? Подписывайтесь на наш Telegram‑канал BotHub AI News.
Источник
Источник: habr.com