Meta* разрабатывает ИИ-систему MoCha, которая превращает текст в анимированных персонажей

Исследователи из Meta и Университета Ватерлоо создали MoCha — систему искусственного интеллекта, которая генерирует полную анимацию персонажей с синхронизированной речью и естественными движениями.

В отличие от предыдущих моделей, которые фокусировались только на лицах, MoCha может воспроизводить движения всего тела с разных ракурсов, включая синхронизацию губ, жесты и взаимодействие между несколькими персонажами. Первые демонстрации были сосредоточены на крупных и средних планах, где система генерировала движения верхней части тела и жесты, соответствующие устному диалогу.

MoCha работает на основе модели диффузионного трансформера с 30 миллиардами параметров. Он создаёт HD-видеоролики продолжительностью около пяти секунд со скоростью 24 кадра в секунду, что ставит его в один ряд с современными моделями создания видео.

Система представляет механизм «Внимание к окну речи и видео» для решения двух постоянных проблем при создании видео с помощью ИИ: сжатие видео во время обработки при сохранении полного разрешения звука и несовпадение движений губ при параллельном создании видео.

Система достигает этого, ограничивая доступ каждого кадра к определённому окну аудиоданных. Такой подход отражает то, как работает человеческая речь: движения губ зависят от непосредственных звуков, а язык тела следует более широким закономерностям в тексте. Добавление маркеров до и после каждого кадра помогает создавать более плавные переходы и более точную синхронизацию губ.

MoCha генерирует фотореалистичные видео с лицами, жестами и движениями губ на основе текстовых описаний.

Исследователи создали систему, используя 300 часов тщательно отфильтрованного видеоконтента, хотя они и не раскрыли исходный материал. Они дополнили его текстовыми видеопоследовательностями, чтобы расширить спектр возможных выражений и взаимодействий.

Для сцен с несколькими персонажами команда разработала упрощённую систему подсказок. Пользователи могут один раз определить персонажей и ссылаться на них с помощью простых тегов, таких как «Персонаж 1» или «Персонаж 2», в разных сценах, избавляясь от необходимости повторять описания.

Исследователи разработали шаблон подсказок, который позволяет пользователям ссылаться на конкретных персонажей без повторных описаний.

В ходе испытаний в 150 различных сценариях MoCha превзошёл аналогичные системы как по синхронизации губ, так и по качеству естественных движений. Независимые эксперты оценили сгенерированные видео как реалистичные.

Результаты тестирования показывают, что MoCha работает лучше, чем конкурирующие системы, по всем показателям.

По словам исследовательской группы, MoCha может быть использована в самых разных сферах: от цифровых помощников и виртуальных аватаров до рекламы и образовательного контента. Meta не сообщила, будет ли эта система с открытым исходным кодом или останется исследовательским прототипом.

Примечательно, что разработка MoCha пришлась на тот момент, когда крупные компании, занимающиеся социальными сетями, стремились развивать видеотехнологии на основе ИИ. Meta недавно запустила MovieGen, а компания ByteDance разрабатывает собственный набор систем анимации на основе ИИ, включая INFP, OmniHuman-1 и Goku.

*Meta и её продукты (Instagram, Facebook) запрещены на территории Российской Федерации

Источник

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”