ElevenLabs, стартап в сфере искусственного интеллекта, который только что получил 180 миллионов долларов в рамках мегафинансирования, в первую очередь известен своим мастерством в создании аудио. Компания сделала шаг в другом технологическом направлении, выпустив свою первую автономную модель преобразования речи в текст под названием Scribe.
Стартап, стоимость которого оценивается в 3,3 миллиарда долларов, помог многим другим компаниям предоставлять услуги преобразования речи в текст благодаря своей обширной библиотеке голосов. Однако сейчас компания стремится выйти на рынок распознавания речи и конкурировать с такими компаниями, как Gladia, Speechmatics, AssemblyAI, Deepgram и моделями Whisper от OpenAI.
Модель Scribe от ElevenLabs поддерживает более 99 языков на момент запуска. Компания относит более 25 языков к категории с высокой точностью, в которой количество ошибок в словах составляет менее 5%. В этот список входят английский (заявленная точность 97%), французский, немецкий, хинди, индонезийский, японский, каннада, малаялам, польский, португальский, испанский и вьетнамский. Другие языки распределены по разным категориям с высоким (5–10% ошибок в словах), хорошим (10–20% ошибок в словах) и средним (25–50% ошибок в словах) процентом ошибок в словах.
Компания заявила, что модель превзошла Google Gemini 2.0 Flash и Whisper Large V3 на нескольких языках в тестах FLEURS и Common Voice.
Компания ElevenLabs разработала компонент преобразования речи в текст для своей платформы диалоговых агентов на основе ИИ, которая была выпущена в прошлом году. Однако это первый раз, когда компания выпускает автономную модель распознавания речи. В беседе с TechCrunch в прошлом месяце генеральный директор Мати Станишевски рассказал об улучшении моделей распознавания речи.
«Нам важно глубже вникнуть в суть ваших слов. Мы работаем над тем, чтобы отойти от простого создания контента и перейти к пониманию и расшифровке речи, — сказал Станишевски в то время. — Многие говорят, что преобразование речи в текст — это решённая проблема. Но для многих языков это не так. Мы считаем, что можем создавать более качественные модели распознавания речи, потому что у нас есть собственные команды, которые аннотируют данные и быстро дают нам обратную связь».
Модель также оснащена интеллектуальным диктором, который сообщает, кто говорит, ставит временные метки на уровне слов для точных субтитров и автоматически помечает звуковые события, например смех зрителей. Стартап предоставляет клиентам возможность напрямую транскрибировать видеоконтент для добавления субтитров или титров в своей студии.
В настоящее время Scribe работает только с предварительно записанными аудиофайлами. Компания заявила, что скоро выпустит версию модели с низкой задержкой в реальном времени. Это означает, что она пока не подходит для расшифровки встреч или голосовых заметок.
ElevenLabs предлагает Scribe по цене $0,40 за час расшифрованного аудио. Несмотря на конкурентоспособность тарифа, некоторые из его конкурентов предлагают более низкую цену на аудиозаписи с некоторой дифференциацией функций.
Источник
Источник: habr.com