Компания Alibaba представила Wan 2.2 Animate — открытую видео-модель для анимации персонажа по одному фото и замены лиа в готовом видео. Это часть семейства моделей Wan 2.2, которое включает преобразования текста в видео (T2V), речи в видео (S2V) и другие варианты. Модель доступна на Hugging Face и GitHub под лицензией Apache-2.0, также ее можно попробовать онлайн.
Архитектура Animate-14B основана на смеси экспертов (MoE) с двумя специалистами: один обрабатывает этапы с высоким уровнем шума, другой — с низким. В общей сложности это 27 миллиардов параметров, но на каждом шаге используется только 14 миллиардов, что позволяет экономить вычисления. Прогресса в кинематографической эстетике и обработке сложных движений удалось достичь благодаря расширенному набору данных: на 65,6% больше изображений и на 83,2% больше видео по сравнению с предыдущей версией.
Процесс простой: вы даете референс-фото героя и драйв-видео с нужными движениями. Система извлекает позы и маски. Дальше два режима. В Animation из фото «собирается» новый ролик — модель переносит движения и мимику из драйв-видео на персонажа (получается видео с вашим героем в тех же жестах и ракурсах). В Replacement исходное видео остается тем же (сцена, фон, камера, тайминг), но модель заменяет в нем человека на героя с фото — можно ограничиться лицом или сделать полную замену тела, с сохранением поз и синхронизации губ.
Для локального запуска полная версия Animate-14B требует около 80 ГБ видеопамяти, но запуск возможен и на 24 ГБ (например, RTX 4090) при использовании оффлоад (выгрузки части данных на ОЗУ) или FP8. Упрощенная версия TI2V-5B работает на 4090 и выдает видео в 720p при 24 fps.
P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.
Источник: habr.com