Mozilla выпустила открытый набор голосовых данных Common Voice 19.0

Компания Mozilla представила в открытом доступе обновлённые наборы голосовых данных Common Voice с примерами произношения более 200 тысяч человек. Их можно использовать в системах машинного обучения для построения моделей распознавания и синтеза речи.

Объём речевого материала в коллекции увеличился с 31.8 до 32.6 тысяч часов, из которых более 20 тысяч часов прошли процедуру проверки. Одновременно число поддерживаемых языков увеличилось со 129 до 131.

Для англоязычных записей использовали голоса 93,9 тысяч человек. Они надиктовали 3587 часов речи. Набор русского языка включает 3296 участников и 278 часов (ранее был 3241 участник и 277 часов), узбекского — 2200 участников и 265 часов (было 2189 участников и 265 часов), белорусского языка — 8444 участников и 1846 часов речевого материала (было 8400 участников и 1815 часов).

Больше всего речевых записей (25%) предоставили участники в возрасте 20-29 лет, 45% участников — мужчины, а 17% — женщины.

Mozilla Common Voice — это открытая инициатива по машинному обучению речи реальных людей. Все накопленные данные считаются общественным достоянием. Поддержать инициативу может любой желающий.

Между тем российские разработчики при поддержке Фонда содействия инновациям в рамках федерального проекта «Искусственный интеллект» выпустили открытый датасет для детекции речи (voice activity detection). Он содержит порядка 150 тысяч часов аудио более чем на 6 тысячах языков.

Источник: habr.com

0 0 голоса

Рейтинг новости

19643

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”