Китайская корпорация Alibaba, разработавшая нейросеть Qwen, представила модель для распознавания речи Qwen3-ASR-Flash. Система обучена на десятках миллионов часов аудиоматериалов и уже поддерживает работу с русским языком.
В ходе тестирования нейросеть продемонстрировала минимальный уровень ошибок при распознавании китайской речи — всего 3,97%. Этот показатель значительно превосходит показатели конкурентов: Gemini‑2.5‑Pro (8,98%) и GPT4o-Transcribe (15,72%).
При анализе лирики в песнях уровень ошибок чуть выше — 4,51%, а при расшифровке полного трека — 9,96%. Но и эти показатели существенно лучше, чем у Gemini (32,79%) и GPT4o (58,59%). Нейросеть также способна автоматически распознавать язык, устранять шум и удалять неречевые звуки. Акценты и диалекты для неё тоже не проблема.
Для работы с узкоспециализированной терминологией, именами или нестандартными выражениями предусмотрена возможность добавления ключевых слов или контекста в запрос на транскрипцию, что помогает минимизировать количество ошибок.
Qwen3-ASR-Flash поддерживает 11 языков, включая русский, китайский, английский, французский, немецкий, испанский, итальянский, португальский, японский, корейский и арабский. Пока модель доступна только как демо на Hugging Face и API в Alibaba Cloud Model Studio. Бесплатная квота — 10 часов аудио на 180 дней.
Источник: lifehacker.ru