Хотя сегодня кажется, что ИИ повсюду, на деле он уверенно работает лишь с частью из семи тысяч существующих языков, оставляя без внимания огромный пласт мировой аудитории. Nvidia решила устранить этот очевидный пробел — в первую очередь в Европе.
Компания представила мощный набор открытых инструментов, который позволит разработчикам создавать высококачественные системы распознавания и синтеза речи для 25 европейских языков. Среди них есть и крупные, широко используемые, но главное — сюда попали и забытые фаворитами больших технокорпораций языки вроде хорватского, эстонского и мальтийского.
Задача проста и амбициозна: дать возможность программистам создавать голосовые сервисы, которые для многих уже стали обыденностью, — от многоязычных чат‑ботов, действительно понимающих собеседника, до систем поддержки клиентов и переводчиков, работающих мгновенно.
Сердцем этой инициативы стала Granary — гигантская библиотека человеческой речи. В ней около миллиона часов аудиозаписей, тщательно отобранных, чтобы обучать ИИ тонкостям распознавания и перевода устной речи.
Чтобы извлечь максимум из этих данных, Nvidia предлагает две новые языковые AI‑модели:
Canary-1b‑v2 — крупная модель, созданная для высокой точности при сложной транскрипции и переводе;
Parakeet‑tdt-0.6b‑v3 — модель для молниеносных приложений, где важна прежде всего скорость.
Тем, кто хочет заглянуть под капот, пригодится научная статья о Granary, которую представят в этом месяце на конференции Interspeech в Нидерландах. А нетерпеливые разработчики могут уже сейчас скачать набор данных и обе модели на Hugging Face.
Но настоящее волшебство — в том, как эти данные были созданы. Общеизвестно: обучение ИИ требует невероятных объёмов данных, а их сбор обычно растягивается на месяцы, обходится дорого и сводится к утомительной ручной разметке.
Чтобы избежать этого, команда Nvidia по распознаванию речи вместе с исследователями из Университета Карнеги — Меллона и Фонда Бруно Кессле создала автоматизированный конвейер обработки: с помощью собственного набора инструментов NeMo они превращали сырое неразмеченное аудио в структурированные данные высокого качества, из которых ИИ способен быстро учиться.
Это не просто технологический прорыв — это огромный шаг к цифровому равенству: теперь разработчик в Риге или Загребе сможет создать голосовой AI‑сервис, который по‑настоящему понимает его язык. Причём — эффективнее. По расчётам исследователей, данных Granary нужно примерно вдвое меньше, чем у других популярных корпусов, чтобы достичь того же уровня точности.
Два новых решения Nvidia наглядно демонстрируют этот потенциал. Canary — настоящая машина: качество её перевода и транскрипции сравнимо с моделями, втрое большими по объёму, но при этом она в десять раз быстрее. Parakeet же способен проглотить 24-минутную запись совещания целиком, самостоятельно определив язык речи. Обе модели корректно расставляют знаки препинания, учитывают регистр и выдают точные временные метки для каждого слова — всё, что нужно для приложений профессионального уровня.
Передав эти инструменты и методы в руки мирового сообщества разработчиков, Nvidia делает больше, чем просто выпускает новый продукт. Она запускает новую волну инноваций, мечтая о будущем, где ИИ будет говорить на твоём языке — независимо от того, где ты живёшь.
Делегируйте рутинные задачи вместе с BotHub. Сервис доступен без VPN, принимаются российские карты. По ссылке вы можете получить 100 000 бесплатных капсов и приступить к работе с нейросетями прямо сейчас.
Источник: habr.com