Hume AI выпустил быструю модель для синтеза речи

Американский стартап Hume AI представил Octave 2 — новую модель генерации речи, которую уже называют самой быстрой на рынке. Заявленная задержка составляет менее 200 миллисекунд, то есть речь формируется практически в реальном времени. Это открывает возможности для чат-ботов, голосовых ассистентов и любых интерактивных систем, где важна естественная пауза между репликами.

Octave 2 свободно работает на 11 языках, среди которых русский, английский, французский, испанский, китайский и другие. Модель умеет клонировать голоса, копируя тембр говорящего с короткого образца, менять голос под нужный пол, возраст и интонации, управлять эмоциями — от спокойного тона до ярко выраженного эмоционального — и даже редактировать фонемы, чтобы добиться точного произношения редких слов, имён или брендов.

По сравнению с первой версией Octave новая модель стала примерно на 40 % быстрее, а стоимость генерации снизилась почти вдвое. Улучшилось и качество звучания — от чёткости дикции до передачи интонаций.

Octave 2 уже доступна для тестирования прямо на сайте Hume AI и через API для разработчиков. В блоге компании выложены примеры аудио и видео, демонстрирующие возможности модели. С запуском Octave 2 Hume AI стремится снять главный барьер в TTS — задержку. Теперь генерация речи происходит настолько быстро, что становится возможным естественный диалог человека и машины без привычных пауз.

Хотите быть в курсе важных новостей из мира ИИ? Подписывайтесь на наш Telegram‑канал BotHub AI News.

Источник

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии