Xiaomi выложила в опенсорс SOTA-модель для универсального понимания аудио

Компания Xiaomi официально выпустила и открыла исходный код большой модели MiDashengLM-7B с функцией распознавания звука. Этот компонент является ключевым элементом стратегии компании по созданию «полноценной экосистемы людей, автомобилей и домов».

MiDashengLM обладает возможностью кросс-доменного анализа, объединяя понимание голоса, окружающих звуков и музыки. Модель не только распознаёт происходящее вокруг пользователя, но и анализирует скрытый смысл событий, улучшая общее понимание контекста.

Взаимодействие с пользователями происходит через естественный язык, что делает общение более человечным. Среди возможностей модели — обратная связь по произношению, создание индивидуальных планов обучения для пения или изучения языков, а также ответы на вопросы о звуках окружающей среды во время вождения.

MiDashengLM, созданная на основе аудиокодера Xiaomi Dasheng и декодера Qwen2.5-Omni-7B Thinker, обеспечивает универсальное обучение для распознавания речи, звуков и музыки. Все обучающие данные (1,1 млн часов) взяты из открытых источников и доступны по лицензии Apache License 2.0.

Модель демонстрирует высокую точность, установив новые рекорды (SOTA) в 22 тестах для мультимодальных моделей и превзойдя Whisper в задачах, не связанных с распознаванием речи.

Эффективность модели также впечатляет: время отклика (TTFT) в четыре раза быстрее аналогов, а пропускная способность — в 20 раз выше, что делает её идеальной для применения в реальном времени.

Инновационный подход модели основан на семантическом картировании, что позволяет ей анализировать эмоции и пространственные характеристики звука. Это значительно расширяет возможности использования модели в различных приложениях, таких как анализ аудиозаписей, создание интерактивных звуковых сред и разработка систем для эмоциональной и пространственной интерпретации звука.

Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии