ByteDance представила систему DreamActor-M1: управление мимикой и движениями в видео

Компания ByteDance представила DreamActor-M1 — новую систему искусственного интеллекта, которая позволяет пользователям точно контролировать выражение лица и движения тела в создаваемых видео.

Система использует то, что компания называет «гибридным управлением» — сочетание нескольких управляющих сигналов, работающих вместе. Архитектура DreamActor-M1 состоит из трёх основных компонентов. В её основе лежит кодировщик лица, который может изменять выражение лица независимо от личности человека или положения его головы. По словам исследователей ByteDance, это устраняет распространённое ограничение предыдущих систем.

Система управляет движениями головы с помощью 3D-модели, используя цветные сферы для направления взгляда и ориентации головы. Для управления движениями тела используется 3D-система скелета с адаптивным слоем, который подстраивается под разные типы телосложения для создания более естественных движений.

Система обрабатывает движения тела и мимику по отдельности, а затем объединяет их в диффузионном трансформаторе для создания более реалистичной анимации.

На этапе обучения модель изучает изображения, снятые под разными углами. По словам исследователей, это позволяет ей генерировать новые ракурсы даже на основе одного портрета, интеллектуально заполняя недостающие детали, такие как одежда и поза.

DreamActor-M1 создаёт несколько видов из одного опорного изображения, обрабатывает движения лица и тела по отдельности, а затем объединяет их для создания финального анимированного видео.

Обучение происходит в три этапа: сначала модель работает над базовыми движениями тела и головы, затем добавляет точно контролируемую мимику и, наконец, оптимизирует всё вместе для более скоординированных результатов. ByteDance сообщает, что модель обучалась на 500 часах видео, в которых в равных долях были показаны движения всего тела и верхней части тела.

По словам исследователей, DreamActor-M1 превосходит аналогичные системы как по качеству изображения, так и по точности управления движением, включая коммерческие продукты, такие как Runway Act-One.

У системы есть ограничения. Она не может обрабатывать динамические движения камеры, взаимодействие объектов или значительные различия в пропорциях тела между источником и целью. Сложные переходы между сценами также остаются сложной задачей.

Компания ByteDance, которой принадлежит TikTok, разрабатывает одновременно несколько проектов анимации аватаров с искусственным интеллектом. Ранее в этом году компания запустила OmniHuman-1, который уже доступен в качестве инструмента синхронизации губ на платформе Dreamina от CapCut, демонстрируя, как быстро ByteDance может донести результаты исследований до пользователей. Другие текущие проекты включают в себя серию видео с искусственным интеллектом Goku и генератор портретов InfiniteYou.

Источник

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии