Разработчики Nari Labs выпустили компактную нейросеть Dia для генерации диалогов из текста. Также пользователи могут управлять эмоциями собеседников и невербальной коммуникацией: смехом, кашлем и вздохами.
Dia получает на вход стенограмму и генерирует из неё реалистичную аудиозапись диалога. Несмотря на широкие возможности управления эмоциями и манерой разговора, разработчики не реализовали выбор конкретного голоса. Поэтому при каждом запуске модель будет генерировать новую личность. При этом пользователям доступен модуль для клонирования голоса по аудиопримеру.
Размер нейросети составляет 1,6 млрд параметров. Разработчики отмечают, что для запуска Dia хватает всего 10 ГБ видеопамяти. На профессиональных видеоускорителях нейросеть может создавать аудио в реальном времени. Например, на Nvidia A4000 модель генерирует 40 токенов в секунду, а одна секунда аудио при этом равна 86 токенам. В будущем разработчики добавят возможность запуска Dia на CPU.
Код Dia опубликован на GitHub, а веса модели доступны на Hugging Face. Также на странице в Notion есть примеры работы Dia и сравнение с другими моделями. Над проектом работает небольшая команда исследователей с одним человеком на полной ставке.
Источник: habr.com