HunyuanVideo-Foley — генерация звука для видео

В видео-генерации давно есть проблема: ролик выглядит реалистично, но без синхронного звука всё ломается. Tencent сделали новую систему — HunyuanVideo-Foley. Она умеет генерировать звук для видео так, чтобы он совпадал и по динамике, и по смыслу.

Что делает модель

Генерирует звуковое сопровождение для видео с нуля, без готовых библиотек эффектов.

Учитывает контекст сцены: если персонаж идёт по снегу — будут шаги со скрипом, если летит космический корабль — гул турбин.

Может создавать фоновую атмосферу (шум улицы, шелест деревьев, ветер и т. д.).

Работает не только по самому видео, но и с учётом текстового описания. Например, можно подсказать, что в сцене ночь или идёт дождь.

Отличается от прошлых решений тем, что звук получается живой и многослойный, а не сухой и одинаковый.

Как это работает

Есть три основные штуки:

Датасет — собрали и отфильтровали 100k часов видео со звуком. Это база, на которой модель учится.

Мультимодальный диффузионный трансформер (MMDiT) — объединяет текст, картинку и звук.

REPA (Representation Alignment) — метод, который помогает выровнять аудио и видео, чтобы не было рассинхрона.

В итоге на выходе получается аудио, которое реально совпадает с движениями и контекстом.

Архитектура

Модель берёт три входа:

текст (через CLAP),

картинку/видео (SigLIP-2),

звук (DAC-VAE).

Потом всё это прогоняется через трансформеры, где разные модальности синхронизируются. Для обучения используют ATST-Frame, он проверяет совпадение картинки и звука по кадрам.

Результаты и бенчмарки

В тестах на Kling-Audio-Eval, VGGSound-Test и MovieGen-Audio-Bench модель обгоняет решения вроде FoleyCrafter, MMAudio, V-AURA и ThinkSound. По метрикам (качество звука, совпадение с видео, синхронизация) HunyuanVideo-Foley почти везде выше конкурентов.

ПримерыКод и демо

GitHub: Tencent-Hunyuan/HunyuanVideo-Foley

HuggingFace: tencent/HunyuanVideo-Foley

Вывод

Тут реально видно прогресс. Видео без звука всегда казалось неполным. Эта модель закрывает дырку

✔️ Все полезные нейронки тут

✔️ Друг Опенсурса мой тг

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”