Специалисты Новосибирского государственного технического университета разработали первое в России программное обеспечение для генерации аудиоконтента на основе нейросетей. Система создает музыку, вокальные партии и звуковые эффекты по текстовым описаниям. Об этом сообщил руководитель проекта Егор Антонянц. Она не требует подключения к облачным сервисам и работает на обычном оборудовании с видеопамятью до 6 ГБ, пишет ТАСС.
Нейросеть адаптирована для русскоязычных запросов. Качество звука оценивается в 4,1 балла из 5 по международной шкале MOS. Это сопоставимо с ведущими коммерческими платформами. Технология использует языковую модель, диффузионный трансформер и встроенный экспорт в форматы WAV, MP3 и FLAC.
По словам разработчика проекта Артура Хусаинова, разработка полностью независима от зарубежных платформ и может работать в закрытых контурах. Система уже генерирует инструментальную музыку, песни с вокалом и звуковые эффекты. В будущем появятся поддержка пространственного аудио, интеграция с MIDI-контроллерами и автоматическое озвучивание фильмов и подкастов.
Источник: www.ferra.ru