Nari Labs выпустила компактную модель Dia для генерации диалогов из текста

Разработчики Nari Labs выпустили компактную нейросеть Dia для генерации диалогов из текста. Также пользователи могут управлять эмоциями собеседников и невербальной коммуникацией: смехом, кашлем и вздохами.

Dia получает на вход стенограмму и генерирует из неё реалистичную аудиозапись диалога. Несмотря на широкие возможности управления эмоциями и манерой разговора, разработчики не реализовали выбор конкретного голоса. Поэтому при каждом запуске модель будет генерировать новую личность. При этом пользователям доступен модуль для клонирования голоса по аудиопримеру.

Размер нейросети составляет 1,6 млрд параметров. Разработчики отмечают, что для запуска Dia хватает всего 10 ГБ видеопамяти. На профессиональных видеоускорителях нейросеть может создавать аудио в реальном времени. Например, на Nvidia A4000 модель генерирует 40 токенов в секунду, а одна секунда аудио при этом равна 86 токенам. В будущем разработчики добавят возможность запуска Dia на CPU.

Код Dia опубликован на GitHub, а веса модели доступны на Hugging Face. Также на странице в Notion есть примеры работы Dia и сравнение с другими моделями. Над проектом работает небольшая команда исследователей с одним человеком на полной ставке.

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”