Релиз открытой ИИ-модели hertz-dev для полнодуплексного голосового общения

В начале ноября 2024 года команда разработчиков из Standard Intelligence представила открытую ИИ-модель для синтеза речи в полнодуплексном режиме под названием hertz-dev. Исходный код проекта написан на Python и опубликован на GitHub под лицензией Apache 2.0.

Проект может использоваться в качестве основы для создания систем голосового общения в реальном времени или генерации разговорной речи. Модель hertz-dev позволяет генерировать речь, близкую к голосовым данным, на которых она обучена, обеспечивая взаимодействие в стиле живого человеческого общения без задержек.

По уточнению разработчиков, на системе с GPU Nvidia GeForce RTX 4090 средняя задержка перед генерацией речи в этой модели составляет 120 мс (теоретически до 65 мс), что примерно в два раза быстрее, чем у имеющихся в открытом доступе существующих моделей.

Опубликованный в открытом доступе вариант hertz-dev построен с использованием архитектуры трансформер. Проект охватывает 8.5 млрд параметров и обучен с использованием 500 млрд токенов. Размер учитываемого моделью контекста (число токенов, которые модель может обработать и запомнить при генерации речи) составляет 2048 токенов или примерно 4 минуты речи.

Источник: habr.com

0 0 голоса

Рейтинг новости

13584

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”