ElevenLabs представил автономную модель преобразования речи в текст Scribe

ElevenLabs, стартап в сфере искусственного интеллекта, который только что получил 180 миллионов долларов в рамках мегафинансирования, в первую очередь известен своим мастерством в создании аудио. Компания сделала шаг в другом технологическом направлении, выпустив свою первую автономную модель преобразования речи в текст под названием Scribe.

Стартап, стоимость которого оценивается в 3,3 миллиарда долларов, помог многим другим компаниям предоставлять услуги преобразования речи в текст благодаря своей обширной библиотеке голосов. Однако сейчас компания стремится выйти на рынок распознавания речи и конкурировать с такими компаниями, как Gladia, Speechmatics, AssemblyAI, Deepgram и моделями Whisper от OpenAI.

Модель Scribe от ElevenLabs поддерживает более 99 языков на момент запуска. Компания относит более 25 языков к категории с высокой точностью, в которой количество ошибок в словах составляет менее 5%. В этот список входят английский (заявленная точность 97%), французский, немецкий, хинди, индонезийский, японский, каннада, малаялам, польский, португальский, испанский и вьетнамский. Другие языки распределены по разным категориям с высоким (5–10% ошибок в словах), хорошим (10–20% ошибок в словах) и средним (25–50% ошибок в словах) процентом ошибок в словах.

Компания заявила, что модель превзошла Google Gemini 2.0 Flash и Whisper Large V3 на нескольких языках в тестах FLEURS и Common Voice.

Компания ElevenLabs разработала компонент преобразования речи в текст для своей платформы диалоговых агентов на основе ИИ, которая была выпущена в прошлом году. Однако это первый раз, когда компания выпускает автономную модель распознавания речи. В беседе с TechCrunch в прошлом месяце генеральный директор Мати Станишевски рассказал об улучшении моделей распознавания речи.

«Нам важно глубже вникнуть в суть ваших слов. Мы работаем над тем, чтобы отойти от простого создания контента и перейти к пониманию и расшифровке речи, — сказал Станишевски в то время. — Многие говорят, что преобразование речи в текст — это решённая проблема. Но для многих языков это не так. Мы считаем, что можем создавать более качественные модели распознавания речи, потому что у нас есть собственные команды, которые аннотируют данные и быстро дают нам обратную связь».

Модель также оснащена интеллектуальным диктором, который сообщает, кто говорит, ставит временные метки на уровне слов для точных субтитров и автоматически помечает звуковые события, например смех зрителей. Стартап предоставляет клиентам возможность напрямую транскрибировать видеоконтент для добавления субтитров или титров в своей студии.

В настоящее время Scribe работает только с предварительно записанными аудиофайлами. Компания заявила, что скоро выпустит версию модели с низкой задержкой в реальном времени. Это означает, что она пока не подходит для расшифровки встреч или голосовых заметок.

ElevenLabs предлагает Scribe по цене $0,40 за час расшифрованного аудио. Несмотря на конкурентоспособность тарифа, некоторые из его конкурентов предлагают более низкую цену на аудиозаписи с некоторой дифференциацией функций.

Источник

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”