Hugging Face запускает FastRTC для упрощения голосовых и видеоприложений в режиме реального времени

Hugging Face, стартап в сфере искусственного интеллекта, стоимость которого оценивается более чем в 4 миллиарда долларов, представил FastRTC — библиотеку Python с открытым исходным кодом, которая устраняет основное препятствие для разработчиков при создании аудио- и видеоприложений с использованием искусственного интеллекта в реальном времени.

«Создание приложений WebRTC и Websocket в реальном времени на Python очень сложно», — сказал Фредди Болтон, один из создателей FastRTC, в своем объявлении на X.com.

Технология WebRTC обеспечивает прямую связь браузера с браузером для аудио, видео и обмена данными без плагинов или загрузок. Несмотря на то, что она необходима для современных голосовых помощников и видеоинструментов, реализация WebRTC остается специализированным набором навыков, которым большинство инженеров машинного обучения (ML) просто не обладают.

Время не могло быть более стратегическим. Голосовой AI привлек огромное внимание и капитал — ElevenLabs недавно получила финансирование в размере 180 миллионов долларов, в то время как такие компании, как Kyutai, Alibaba и Fixie.ai, выпустили специализированные аудио-модели.

Тем не менее, разрыв между этими сложными моделями AI и технической инфраструктурой, необходимой для их развертывания в отзывчивых приложениях реального времени, сохраняется. Как отметила Hugging Face в своем сообщении в блоге, «инженеры ML могут не иметь опыта работы с технологиями, необходимыми для создания приложений реального времени, таких как WebRTC».

FastRTC решает эту проблему с помощью автоматизированных функций, обрабатывающих сложные части общения в реальном времени. Библиотека обеспечивает распознавание голоса, возможности очередности, тестирование интерфейсов и даже генерацию временного номера телефона для доступа к приложению.

Главное преимущество библиотеки — ее простота. Сообщается, что разработчики могут создавать базовые аудио-приложения в реальном времени всего за несколько строк кода — разительный контраст с неделями разработки, которые требовались ранее.

Этот сдвиг имеет существенные последствия для бизнеса. Компании, которым ранее требовались специализированные инженеры по коммуникациям, теперь могут использовать своих существующих разработчиков Python для создания функций искусственного интеллекта для голосовых и видео-технологий.

«Вы можете использовать любой API LLM/текст-в-речь/речь-в-текст или даже модель речи-в-речь», — поясняется в объявлении.

Источник

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии