Meta* разрабатывает ИИ-систему MoCha, которая превращает текст в анимированных персонажей

Исследователи из Meta и Университета Ватерлоо создали MoCha — систему искусственного интеллекта, которая генерирует полную анимацию персонажей с синхронизированной речью и естественными движениями.

В отличие от предыдущих моделей, которые фокусировались только на лицах, MoCha может воспроизводить движения всего тела с разных ракурсов, включая синхронизацию губ, жесты и взаимодействие между несколькими персонажами. Первые демонстрации были сосредоточены на крупных и средних планах, где система генерировала движения верхней части тела и жесты, соответствующие устному диалогу.

MoCha работает на основе модели диффузионного трансформера с 30 миллиардами параметров. Он создаёт HD-видеоролики продолжительностью около пяти секунд со скоростью 24 кадра в секунду, что ставит его в один ряд с современными моделями создания видео.

Система представляет механизм «Внимание к окну речи и видео» для решения двух постоянных проблем при создании видео с помощью ИИ: сжатие видео во время обработки при сохранении полного разрешения звука и несовпадение движений губ при параллельном создании видео.

Система достигает этого, ограничивая доступ каждого кадра к определённому окну аудиоданных. Такой подход отражает то, как работает человеческая речь: движения губ зависят от непосредственных звуков, а язык тела следует более широким закономерностям в тексте. Добавление маркеров до и после каждого кадра помогает создавать более плавные переходы и более точную синхронизацию губ.

MoCha генерирует фотореалистичные видео с лицами, жестами и движениями губ на основе текстовых описаний.

Исследователи создали систему, используя 300 часов тщательно отфильтрованного видеоконтента, хотя они и не раскрыли исходный материал. Они дополнили его текстовыми видеопоследовательностями, чтобы расширить спектр возможных выражений и взаимодействий.

Для сцен с несколькими персонажами команда разработала упрощённую систему подсказок. Пользователи могут один раз определить персонажей и ссылаться на них с помощью простых тегов, таких как «Персонаж 1» или «Персонаж 2», в разных сценах, избавляясь от необходимости повторять описания.

Исследователи разработали шаблон подсказок, который позволяет пользователям ссылаться на конкретных персонажей без повторных описаний.

В ходе испытаний в 150 различных сценариях MoCha превзошёл аналогичные системы как по синхронизации губ, так и по качеству естественных движений. Независимые эксперты оценили сгенерированные видео как реалистичные.

Результаты тестирования показывают, что MoCha работает лучше, чем конкурирующие системы, по всем показателям.

По словам исследовательской группы, MoCha может быть использована в самых разных сферах: от цифровых помощников и виртуальных аватаров до рекламы и образовательного контента. Meta не сообщила, будет ли эта система с открытым исходным кодом или останется исследовательским прототипом.

Примечательно, что разработка MoCha пришлась на тот момент, когда крупные компании, занимающиеся социальными сетями, стремились развивать видеотехнологии на основе ИИ. Meta недавно запустила MovieGen, а компания ByteDance разрабатывает собственный набор систем анимации на основе ИИ, включая INFP, OmniHuman-1 и Goku.

*Meta и её продукты (Instagram, Facebook) запрещены на территории Российской Федерации

Источник

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии