ByteDance представила систему DreamActor-M1: управление мимикой и движениями в видео

Компания ByteDance представила DreamActor-M1 — новую систему искусственного интеллекта, которая позволяет пользователям точно контролировать выражение лица и движения тела в создаваемых видео.

Система использует то, что компания называет «гибридным управлением» — сочетание нескольких управляющих сигналов, работающих вместе. Архитектура DreamActor-M1 состоит из трёх основных компонентов. В её основе лежит кодировщик лица, который может изменять выражение лица независимо от личности человека или положения его головы. По словам исследователей ByteDance, это устраняет распространённое ограничение предыдущих систем.

Система управляет движениями головы с помощью 3D-модели, используя цветные сферы для направления взгляда и ориентации головы. Для управления движениями тела используется 3D-система скелета с адаптивным слоем, который подстраивается под разные типы телосложения для создания более естественных движений.

Система обрабатывает движения тела и мимику по отдельности, а затем объединяет их в диффузионном трансформаторе для создания более реалистичной анимации.

На этапе обучения модель изучает изображения, снятые под разными углами. По словам исследователей, это позволяет ей генерировать новые ракурсы даже на основе одного портрета, интеллектуально заполняя недостающие детали, такие как одежда и поза.

DreamActor-M1 создаёт несколько видов из одного опорного изображения, обрабатывает движения лица и тела по отдельности, а затем объединяет их для создания финального анимированного видео.

Обучение происходит в три этапа: сначала модель работает над базовыми движениями тела и головы, затем добавляет точно контролируемую мимику и, наконец, оптимизирует всё вместе для более скоординированных результатов. ByteDance сообщает, что модель обучалась на 500 часах видео, в которых в равных долях были показаны движения всего тела и верхней части тела.

По словам исследователей, DreamActor-M1 превосходит аналогичные системы как по качеству изображения, так и по точности управления движением, включая коммерческие продукты, такие как Runway Act-One.

У системы есть ограничения. Она не может обрабатывать динамические движения камеры, взаимодействие объектов или значительные различия в пропорциях тела между источником и целью. Сложные переходы между сценами также остаются сложной задачей.

Компания ByteDance, которой принадлежит TikTok, разрабатывает одновременно несколько проектов анимации аватаров с искусственным интеллектом. Ранее в этом году компания запустила OmniHuman-1, который уже доступен в качестве инструмента синхронизации губ на платформе Dreamina от CapCut, демонстрируя, как быстро ByteDance может донести результаты исследований до пользователей. Другие текущие проекты включают в себя серию видео с искусственным интеллектом Goku и генератор портретов InfiniteYou.

Источник

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”