NVIDIA представила модель, которая анализирует звук, речь и музыку

NVIDIA представила новую мультимодальную модель Audio Flamingo 3, которая умеет понимать и анализировать звук, речь и музыку. В её основе лежит комбинация сразу нескольких технологий — аудиокодера AF Whisper, адаптера, языковой модели Qwen 2.5 7B и модуля генерации речи. Такой стек позволяет системе работать с длинными звуковыми записями до десяти минут, распознавать речь, понимать контекст и поддерживать многотуровые диалоги с пользователем.

Audio Flamingo 3 обучена на огромном наборе аудио-датасетов и уже показывает выдающиеся результаты в тестах по звуковому пониманию и рассуждению. Модель уверенно справляется с задачами анализа музыкальных фрагментов, разговорной речи и даже звуковых сцен, где нужно распознать происходящее на фоне.

Разработчики отмечают, что новая архитектура открывает путь к полноценным аудиоассистентам, которые смогут не просто распознавать команды, а вести естественные разговоры и понимать интонацию человека. Модель уже интегрирована в экосистему NVIDIA и доступна исследователям через PyTorch и Hugging Face.

Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии