FFmpeg добавит функцию расшифровки аудио через OpenAI Whisper

Стало известно, что мультимедийный инструмент FFmpeg получит встроенную возможность автоматической расшифровки речи, используя искусственный интеллект Whisper от OpenAI. В данный момент готовится релиз FFmpeg 8.0, и вместе с ним в пакет войдёт и новая функция транскрибации.

FFmpeg — это проект с открытым исходным кодом, настоящий швейцарский нож для работы с мультимедиа. Он умеет кодировать и декодировать видео‑ и аудиофайлы, вырезать из видео нужные фрагменты, собирать клипы из последовательности изображений. Его можно запускать как самостоятельную утилиту в командной строке, а также использовать внутри приложений и веб‑сервисов. Прямо или косвенно от FFmpeg выигрывают миллионы пользователей.

Теперь в FFmpeg появится поддержка Whisper — системы распознавания речи, способной работать примерно с 100 языками, выдавать очень точные тексты просто по загруженному аудиофайлу, а также переводить текст на английский и генерировать черновые субтитры. Модели Whisper распространяются бесплатно: их можно скачать и запускать локально на своём компьютере, а для самой «продвинутой», whisper‑large‑v3, понадобится 12 ГБ видеопамяти.

Чтобы включить новую функцию, при сборке FFmpeg достаточно указать флаг ‑enable‑whisper. Для этого на ПК должна быть установлена библиотека whisper.cpp, которая даёт возможность интегрировать Whisper в различные приложения.

Система поддерживает вывод результатов в форматах JSON и SRT, а также может использовать ускорение на GPU. Исходный код функции доступен по ссылке. Кроме того, ранее автор патча Витторио Пальмизано подготовил статью о том, как запустить транскрипцию в FFmpeg всего одной командой.

На момент написания заметки релиз FFmpeg 8.0 ещё в процессе подготовки. Если всё пойдёт по плану, он состоится уже в августе 2025 года.

Чтобы расшифровывать аудио, я рекомендую модели AssemblyAI, доступные в BotHub, которые опережают точность Whisper на несколько процентов.

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии