NVIDIA представила модель, которая анализирует звук, речь и музыку

NVIDIA представила новую мультимодальную модель Audio Flamingo 3, которая умеет понимать и анализировать звук, речь и музыку. В её основе лежит комбинация сразу нескольких технологий — аудиокодера AF Whisper, адаптера, языковой модели Qwen 2.5 7B и модуля генерации речи. Такой стек позволяет системе работать с длинными звуковыми записями до десяти минут, распознавать речь, понимать контекст и поддерживать многотуровые диалоги с пользователем.

Audio Flamingo 3 обучена на огромном наборе аудио-датасетов и уже показывает выдающиеся результаты в тестах по звуковому пониманию и рассуждению. Модель уверенно справляется с задачами анализа музыкальных фрагментов, разговорной речи и даже звуковых сцен, где нужно распознать происходящее на фоне.

Разработчики отмечают, что новая архитектура открывает путь к полноценным аудиоассистентам, которые смогут не просто распознавать команды, а вести естественные разговоры и понимать интонацию человека. Модель уже интегрирована в экосистему NVIDIA и доступна исследователям через PyTorch и Hugging Face.

Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”