Модель ИИ VACE от Alibaba стремится стать универсальным инструментом для работы с видео

Учёные из Alibaba Group представили VACE — модель ИИ общего назначения, предназначенную для решения широкого спектра задач по созданию и редактированию видео в рамках единой системы.

Основой модели является усовершенствованная архитектура диффузионного трансформера, но главное здесь — новый формат входных данных: «Блок обработки видео» (VCU). VCU — это ответ Alibaba на извечную проблему, связанную с мультимодальными входными данными: он принимает всё — от текстовых подсказок до последовательностей эталонных изображений или видео, а также пространственных масок — и преобразует их в единое представление. Команда разработала специальные механизмы, чтобы эти разрозненные входные данные работали вместе, а не конфликтовали друг с другом.

VACE использует метод, называемый «развязкой концепций», для разделения каждого изображения на редактируемые и фиксированные области, что позволяет модели точно контролировать, что нужно изменить, а что оставить без изменений.

Процесс начинается с масок, разделяющих изображение на «реактивные» области — цели для модификации — и «неактивные» зоны, которые остаются нетронутыми. Вся эта визуальная информация встраивается в общее пространство признаков и объединяется с соответствующим текстовым вводом.

Чтобы сгенерированное видео оставалось последовательным от кадра к кадру, VACE сопоставляет эти характеристики с латентным пространством, созданным в соответствии со структурой диффузионного преобразователя. Слои, встраивающие время, гарантируют, что понимание моделью последовательности не нарушается при переходе от одного кадра к другому. Механизм внимания объединяет характеристики из разных модальностей и временных отрезков, чтобы система могла обрабатывать всё как единое целое — независимо от того, создаётся ли новый видеоконтент или редактируются существующие кадры.

Набор инструментов VACE охватывает четыре основные задачи: создание видео на основе текстовых подсказок, синтез новых кадров на основе эталонных изображений или клипов, редактирование видео и применение масок для целенаправленного редактирования. Такой подход, при котором одна модель подходит для большинства задач, открывает довольно широкий спектр вариантов использования.

VACE может анимировать человека, выходящего из кадра, создать персонажа аниме, занимающегося серфингом, заменить пингвинов котятами или расширить фон, чтобы всё выглядело плавно. Если вы хотите увидеть, на что он способен, на официальном сайте проекта есть больше примеров.

От ссылок и анимации до перестановки объектов и расширения сцены — VACE демонстрирует широкий спектр возможностей визуального синтеза.

Обучение началось с основ: сначала команда сосредоточилась на вставке и закрашивании, чтобы усовершенствовать процесс преобразования текста в видео, затем добавила опорные изображения и перешла к более сложным задачам редактирования. Данные они получали из видео в интернете, автоматически фильтруя, сегментируя и дополняя их аннотациями глубины и позы.

Чтобы оценить, насколько хорош VACE, исследователи создали специальный тест-набор: 480 примеров, охватывающих десяток задач по редактированию видео, включая вставку, перерисовку, стилизацию, управление глубиной и генерацию по референсам. Согласно результатам, VACE превосходит специализированные модели с открытым исходным кодом по всем параметрам как в количественных показателях, так и в пользовательских исследованиях. Тем не менее, в генерации по референсам коммерческие модели, такие как Vidu и Kling, по-прежнему превосходят VACE.

Исследователи из Alibaba рассматривают VACE как важный шаг на пути к универсальным мультимодальным моделям видео, и следующий шаг довольно предсказуем — масштабирование с использованием более крупных наборов данных и вычислительных мощностей. Некоторые части модели будут доступны в виде открытого исходного кода на GitHub.

VACE вписывается в общую картину амбиций Alibaba в области ИИ наряду с недавними релизами больших языковых моделей, особенно серии Qwen. Другие китайские технологические гиганты, такие как ByteDance, активно развивают ИИ для видео, иногда не уступая западным предложениям, таким как Sora от OpenAI или Veo 2 от Google.

Источник

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии