ElevenLabs представил автономную модель преобразования речи в текст Scribe

ElevenLabs, стартап в сфере искусственного интеллекта, который только что получил 180 миллионов долларов в рамках мегафинансирования, в первую очередь известен своим мастерством в создании аудио. Компания сделала шаг в другом технологическом направлении, выпустив свою первую автономную модель преобразования речи в текст под названием Scribe.

Стартап, стоимость которого оценивается в 3,3 миллиарда долларов, помог многим другим компаниям предоставлять услуги преобразования речи в текст благодаря своей обширной библиотеке голосов. Однако сейчас компания стремится выйти на рынок распознавания речи и конкурировать с такими компаниями, как Gladia, Speechmatics, AssemblyAI, Deepgram и моделями Whisper от OpenAI.

Модель Scribe от ElevenLabs поддерживает более 99 языков на момент запуска. Компания относит более 25 языков к категории с высокой точностью, в которой количество ошибок в словах составляет менее 5%. В этот список входят английский (заявленная точность 97%), французский, немецкий, хинди, индонезийский, японский, каннада, малаялам, польский, португальский, испанский и вьетнамский. Другие языки распределены по разным категориям с высоким (5–10% ошибок в словах), хорошим (10–20% ошибок в словах) и средним (25–50% ошибок в словах) процентом ошибок в словах.

Компания заявила, что модель превзошла Google Gemini 2.0 Flash и Whisper Large V3 на нескольких языках в тестах FLEURS и Common Voice.

Компания ElevenLabs разработала компонент преобразования речи в текст для своей платформы диалоговых агентов на основе ИИ, которая была выпущена в прошлом году. Однако это первый раз, когда компания выпускает автономную модель распознавания речи. В беседе с TechCrunch в прошлом месяце генеральный директор Мати Станишевски рассказал об улучшении моделей распознавания речи.

«Нам важно глубже вникнуть в суть ваших слов. Мы работаем над тем, чтобы отойти от простого создания контента и перейти к пониманию и расшифровке речи, — сказал Станишевски в то время. — Многие говорят, что преобразование речи в текст — это решённая проблема. Но для многих языков это не так. Мы считаем, что можем создавать более качественные модели распознавания речи, потому что у нас есть собственные команды, которые аннотируют данные и быстро дают нам обратную связь».

Модель также оснащена интеллектуальным диктором, который сообщает, кто говорит, ставит временные метки на уровне слов для точных субтитров и автоматически помечает звуковые события, например смех зрителей. Стартап предоставляет клиентам возможность напрямую транскрибировать видеоконтент для добавления субтитров или титров в своей студии.

В настоящее время Scribe работает только с предварительно записанными аудиофайлами. Компания заявила, что скоро выпустит версию модели с низкой задержкой в реальном времени. Это означает, что она пока не подходит для расшифровки встреч или голосовых заметок.

ElevenLabs предлагает Scribe по цене $0,40 за час расшифрованного аудио. Несмотря на конкурентоспособность тарифа, некоторые из его конкурентов предлагают более низкую цену на аудиозаписи с некоторой дифференциацией функций.

Источник

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии