Hugging Face запускает FastRTC для упрощения голосовых и видеоприложений в режиме реального времени

Hugging Face, стартап в сфере искусственного интеллекта, стоимость которого оценивается более чем в 4 миллиарда долларов, представил FastRTC — библиотеку Python с открытым исходным кодом, которая устраняет основное препятствие для разработчиков при создании аудио- и видеоприложений с использованием искусственного интеллекта в реальном времени.

«Создание приложений WebRTC и Websocket в реальном времени на Python очень сложно», — сказал Фредди Болтон, один из создателей FastRTC, в своем объявлении на X.com.

Технология WebRTC обеспечивает прямую связь браузера с браузером для аудио, видео и обмена данными без плагинов или загрузок. Несмотря на то, что она необходима для современных голосовых помощников и видеоинструментов, реализация WebRTC остается специализированным набором навыков, которым большинство инженеров машинного обучения (ML) просто не обладают.

Время не могло быть более стратегическим. Голосовой AI привлек огромное внимание и капитал — ElevenLabs недавно получила финансирование в размере 180 миллионов долларов, в то время как такие компании, как Kyutai, Alibaba и Fixie.ai, выпустили специализированные аудио-модели.

Тем не менее, разрыв между этими сложными моделями AI и технической инфраструктурой, необходимой для их развертывания в отзывчивых приложениях реального времени, сохраняется. Как отметила Hugging Face в своем сообщении в блоге, «инженеры ML могут не иметь опыта работы с технологиями, необходимыми для создания приложений реального времени, таких как WebRTC».

FastRTC решает эту проблему с помощью автоматизированных функций, обрабатывающих сложные части общения в реальном времени. Библиотека обеспечивает распознавание голоса, возможности очередности, тестирование интерфейсов и даже генерацию временного номера телефона для доступа к приложению.

Главное преимущество библиотеки — ее простота. Сообщается, что разработчики могут создавать базовые аудио-приложения в реальном времени всего за несколько строк кода — разительный контраст с неделями разработки, которые требовались ранее.

Этот сдвиг имеет существенные последствия для бизнеса. Компании, которым ранее требовались специализированные инженеры по коммуникациям, теперь могут использовать своих существующих разработчиков Python для создания функций искусственного интеллекта для голосовых и видео-технологий.

«Вы можете использовать любой API LLM/текст-в-речь/речь-в-текст или даже модель речи-в-речь», — поясняется в объявлении.

Источник

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”