Компания Nvidia заявила, что её новый инструмент для редактирования аудио на базе ИИ, названный Fugatto, способен создавать «звуки, которых никто раньше не слышал», например, трубу, издающую звуки, похожие на мяуканье. Fugatto может генерировать музыку, звуки и речь, основываясь на текстовых и аудио запросах, даже если ранее не обучался на подобных данных.
На представленном Nvidia видео инструмент демонстрирует возможность создавать песни по нестандартным запросам, например: «Создать саксофон, который воет, лает, а затем переходит в электронную музыку с собачьим лаем».
Nvidia также привела другие примеры возможностей Fugatto, включая генерацию уникальных звуковых эффектов по описанию, таких как: «Глубокие, грохочущие басовые пульсации с прерывистыми, высокими цифровыми звуками, напоминающими пробуждение гигантской разумной машины».
Инструмент может менять голос человека, трансформируя акцент или придавая голосу разные эмоции, например, гнев или спокойствие. Fugatto также способен редактировать музыку: изолировать вокал в песне, добавлять инструменты или изменять мелодию, заменяя, например, звук пианино на оперное пение.
Обучение Fugatto
Согласно отчету, сопровождающей анонс, Fugatto обучался на огромном объёме данных, включая библиотеку звуковых эффектов BBC. Для его создания Nvidia собрала набор данных с миллионами аудиопримеров. Исследователи также разработали специальные инструкции, которые значительно расширили задачи, решаемые моделью, улучшив её точность и позволив выполнять новые задачи без добавления дополнительных данных.
Конкуренты и уникальность
На рынке уже существуют другие ИИ-инструменты для работы с аудио, такие как разработки Stability AI, OpenAI, Google DeepMind, ElevenLabs и Adobe. Однако они не претендуют на создание совершенно новых, никогда ранее не существовавших звуков. Некоторые стартапы, работающие в этой области, уже сталкиваются с судебными исками из-за возможных нарушений авторских прав, а недавний отчёт показал, что такие компании, как Nvidia, обучали свои ИИ-модели на субтитрах из тысяч видео на YouTube.
Доступность Fugatto
Пока Nvidia не уточняет, будет ли Fugatto доступен широкой аудитории и когда это может произойти. Однако, с учётом уникальных возможностей инструмента, его потенциал для использования в музыке, создании звуковых эффектов и редактировании речи кажется необычным и впечатляющим.
Источник
Источник: habr.com