Датасет Granary от Nvidia: миллион часов речи для обучения нового поколения ИИ

Хотя сегодня кажется, что ИИ повсюду, на деле он уверенно работает лишь с частью из семи тысяч существующих языков, оставляя без внимания огромный пласт мировой аудитории. Nvidia решила устранить этот очевидный пробел — в первую очередь в Европе.

Компания представила мощный набор открытых инструментов, который позволит разработчикам создавать высококачественные системы распознавания и синтеза речи для 25 европейских языков. Среди них есть и крупные, широко используемые, но главное — сюда попали и забытые фаворитами больших технокорпораций языки вроде хорватского, эстонского и мальтийского.

Задача проста и амбициозна: дать возможность программистам создавать голосовые сервисы, которые для многих уже стали обыденностью, — от многоязычных чат‑ботов, действительно понимающих собеседника, до систем поддержки клиентов и переводчиков, работающих мгновенно.

Сердцем этой инициативы стала Granary — гигантская библиотека человеческой речи. В ней около миллиона часов аудиозаписей, тщательно отобранных, чтобы обучать ИИ тонкостям распознавания и перевода устной речи.

Чтобы извлечь максимум из этих данных, Nvidia предлагает две новые языковые AI‑модели:

Canary-1b‑v2 — крупная модель, созданная для высокой точности при сложной транскрипции и переводе;

Parakeet‑tdt-0.6b‑v3 — модель для молниеносных приложений, где важна прежде всего скорость.

Тем, кто хочет заглянуть под капот, пригодится научная статья о Granary, которую представят в этом месяце на конференции Interspeech в Нидерландах. А нетерпеливые разработчики могут уже сейчас скачать набор данных и обе модели на Hugging Face.

Но настоящее волшебство — в том, как эти данные были созданы. Общеизвестно: обучение ИИ требует невероятных объёмов данных, а их сбор обычно растягивается на месяцы, обходится дорого и сводится к утомительной ручной разметке.

Чтобы избежать этого, команда Nvidia по распознаванию речи вместе с исследователями из Университета Карнеги — Меллона и Фонда Бруно Кессле создала автоматизированный конвейер обработки: с помощью собственного набора инструментов NeMo они превращали сырое неразмеченное аудио в структурированные данные высокого качества, из которых ИИ способен быстро учиться.

Это не просто технологический прорыв — это огромный шаг к цифровому равенству: теперь разработчик в Риге или Загребе сможет создать голосовой AI‑сервис, который по‑настоящему понимает его язык. Причём — эффективнее. По расчётам исследователей, данных Granary нужно примерно вдвое меньше, чем у других популярных корпусов, чтобы достичь того же уровня точности.

Два новых решения Nvidia наглядно демонстрируют этот потенциал. Canary — настоящая машина: качество её перевода и транскрипции сравнимо с моделями, втрое большими по объёму, но при этом она в десять раз быстрее. Parakeet же способен проглотить 24-минутную запись совещания целиком, самостоятельно определив язык речи. Обе модели корректно расставляют знаки препинания, учитывают регистр и выдают точные временные метки для каждого слова — всё, что нужно для приложений профессионального уровня.

Передав эти инструменты и методы в руки мирового сообщества разработчиков, Nvidia делает больше, чем просто выпускает новый продукт. Она запускает новую волну инноваций, мечтая о будущем, где ИИ будет говорить на твоём языке — независимо от того, где ты живёшь.

Делегируйте рутинные задачи вместе с BotHub. Сервис доступен без VPN, принимаются российские карты. По ссылке вы можете получить 100 000 бесплатных капсов и приступить к работе с нейросетями прямо сейчас.

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”