Французская компания Mistral, специализирующаяся на искусственном интеллекте, представляет Voxtral — модель распознавания речи с открытым исходным кодом. Она обещает заменить проприетарные решения, предлагая при этом вдвое меньшую стоимость.
Модели Voxtral представлены в двух вариантах: 24B для производственных приложений и компактная модель 3B для локального и периферийного развёртывания. Обе модели поддерживают контекстное окно на 32 000 токенов, которое, по словам представителей Mistral, может обрабатывать аудиофайлы длительностью до 30 минут для расшифровки или до 40 минут для понимания.
В отличие от стандартных инструментов для расшифровки, Voxtral предоставляет возможность задавать вопросы и получать ответы, а также обобщать информацию без использования отдельных моделей распознавания речи и языковых моделей. Кроме того, пользователи могут использовать голосовые команды для непосредственного запуска серверных функций, автоматически преобразуя устные запросы в вызовы API.
У Voxtral Small значительно ниже процент ошибок, но по цене он уступает большому Whisper
Модели поддерживают автоматическое распознавание речи на английском, испанском, французском, португальском, хинди, немецком, голландском и итальянском языках, сохраняя при этом возможности понимания текста, заложенные в основу языковой модели Mistral Small 3.1.
Эталонные показатели превосходят конкурентов
Тесты Mistral показывают, что Voxtral Small превосходит ведущую модель с открытым исходным кодом Whisper large-v3, а также GPT-4o mini Transcribe и Gemini 2.5 Flash во всех протестированных задачах. В задачах на расшифровку коротких текстов на английском языке и в тесте Common Voice от Mozilla он, как сообщается, превосходит ElevenLabs Scribe — на данный момент одну из самых эффективных моделей.
Согласно тестам Mistral, Voxtral может конкурировать с гораздо более крупными моделями, такими как GPT-4o mini и Gemini 2.5 Flash
В тесте на многоязычное распознавание речи FLEURS Voxtral Small якобы превосходит Whisper на всех девяти протестированных языках. В задачах на понимание аудио он показывает результаты, сопоставимые с GPT-4o-mini и Gemini 2.5 Flash, при этом обеспечивая высочайшее качество перевода речи.
Ценообразование подрывает собственные альтернативы
Mistral представляет Voxtral как бюджетный вариант с ценой за API от 0,001 доллара в минуту. Voxtral Mini Transcribe, по заявлению компании, превосходит Whisper от OpenAI по качеству, но при этом стоит вдвое дешевле для приложений, чувствительных к цене. Voxtral Small по производительности соответствует ElevenLabs Scribe, обеспечивая аналогичную экономию.
Корпоративные функции включают в себя возможность частного развертывания для регулируемых отраслей и тонкую настройку для конкретных областей. В будущих обновлениях будут добавлены сегментация говорящего, аудиоразметки для определения возраста/эмоций и временные метки на уровне слов.
Обе версии Voxtral доступны для скачивания по лицензии Apache-2.0 на Hugging Face, а Mistral также предлагает доступ к API. Эти модели будут использоваться в голосовом режиме в Le Chat, который станет доступен всем пользователям в ближайшие недели.
Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!
Перевод, источник новости здесь.
Источник: habr.com