Бесплатный набор инструментов для работы с аудио и видео FFmpeg получил новый аудиофильтр af_whisper, который обеспечивает автоматическое распознавание речи (ASR) непосредственно в FFmpeg. Он использует библиотеку whisper.cpp с мощной ИИ-моделью для обработки медиаконтента. Это событие является важным шагом для FFmpeg, поскольку выводит программное обеспечение за рамки традиционной обработки медиаконтента. Подписывайтесь на Telegram-канал про технологии
Параметры нового фильтра обеспечивают гибкую расшифровку аудио, включая выбор модели ИИ, указание языка и настройку выходного формата. Фильтр поддерживает обработку предварительно записанных файлов и аудиопотоков в реальном времени, а пользователи могут использовать функцию распознавания голосовой активации (VAD) для повышения точности и эффективности транскрибации.
Фильтр позволяет балансировать между точностью расшифровки аудио и скоростью обработки. Он поддерживает аппаратное ускорение GPU, что может значительно ускорить процесс транскрибации. Новый фильтр может генерировать субтитры, например, SRT-файлы для видео и подкастов, а также позволяет транскрибировать аудио для потокового вещания или других приложений в режиме реального времени. Выходные метаданные можно использовать для дальнейшей автоматизации в FFmpeg. Новая функция упрощает процесс для создателей контента, а также значительно экономит время.
Эта интеграция создаёт прецедент для FFmpeg по добавлению других моделей искусственного интеллекта и машинного обучения в будущем, а также укрепляет позиции FFmpeg как отраслевого стандарта в области медиа.
Источник: trashbox.ru