HunyuanVideo-Foley — генерация звука для видео

В видео-генерации давно есть проблема: ролик выглядит реалистично, но без синхронного звука всё ломается. Tencent сделали новую систему — HunyuanVideo-Foley. Она умеет генерировать звук для видео так, чтобы он совпадал и по динамике, и по смыслу.

Что делает модель

Генерирует звуковое сопровождение для видео с нуля, без готовых библиотек эффектов.

Учитывает контекст сцены: если персонаж идёт по снегу — будут шаги со скрипом, если летит космический корабль — гул турбин.

Может создавать фоновую атмосферу (шум улицы, шелест деревьев, ветер и т. д.).

Работает не только по самому видео, но и с учётом текстового описания. Например, можно подсказать, что в сцене ночь или идёт дождь.

Отличается от прошлых решений тем, что звук получается живой и многослойный, а не сухой и одинаковый.

Как это работает

Есть три основные штуки:

Датасет — собрали и отфильтровали 100k часов видео со звуком. Это база, на которой модель учится.

Мультимодальный диффузионный трансформер (MMDiT) — объединяет текст, картинку и звук.

REPA (Representation Alignment) — метод, который помогает выровнять аудио и видео, чтобы не было рассинхрона.

В итоге на выходе получается аудио, которое реально совпадает с движениями и контекстом.

Архитектура

Модель берёт три входа:

текст (через CLAP),

картинку/видео (SigLIP-2),

звук (DAC-VAE).

Потом всё это прогоняется через трансформеры, где разные модальности синхронизируются. Для обучения используют ATST-Frame, он проверяет совпадение картинки и звука по кадрам.

Результаты и бенчмарки

В тестах на Kling-Audio-Eval, VGGSound-Test и MovieGen-Audio-Bench модель обгоняет решения вроде FoleyCrafter, MMAudio, V-AURA и ThinkSound. По метрикам (качество звука, совпадение с видео, синхронизация) HunyuanVideo-Foley почти везде выше конкурентов.

ПримерыКод и демо

GitHub: Tencent-Hunyuan/HunyuanVideo-Foley

HuggingFace: tencent/HunyuanVideo-Foley

Вывод

Тут реально видно прогресс. Видео без звука всегда казалось неполным. Эта модель закрывает дырку

✔️ Все полезные нейронки тут

✔️ Друг Опенсурса мой тг

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии