Представлен Pyramid Flow — новый высококачественный ИИ-генератор видео с открытым исходным кодом

Количество моделей для генерации видео на базе искусственного интеллекта стремительно растет. На этой неделе была представлена новая модель — Pyramid Flow, которая быстро генерирует высококачественные видео продолжительностью до 10 секунд и имеет полностью открытый исходный код.

Pyramid Flow

Модель Pyramid Flow была разработана совместно исследователями из Пекинского университета, Пекинского университета почты и телекоммуникаций и компании Kuaishou Technology (создателя высоко оценённой проприетарной системы генерации видео на базе ИИ — Kling). Pyramid Flow основана на новой технологии, при которой единая модель искусственного интеллекта генерирует видео поэтапно. На большинстве этапов создаются версии с низким разрешением, а версия в полном разрешении формируется только на завершающем этапе генерации.

Модель доступна для загрузки в виде исходного кода на платформах Hugging Face и GitHub. Она может быть запущена в демонстрационной среде, однако требует от пользователя загрузки и запуска кода на собственном компьютере.

Смотреть демонстрацию Pyramid Flow

При инференсе модель способна сгенерировать 5-секундное видео в разрешении 384p всего за 56 секунд, что сопоставимо или быстрее многих аналогичных диффузионных моделей. Однако Gen-3 Alpha Turbo от Runway по-прежнему лидирует по скорости генерации ИИ-видео, создавая ролики менее чем за минуту.

Видео, опубликованные создателями модели, выглядят невероятно реалистично, имеют высокое разрешение и впечатляют — аналогично тому, что предлагают проприетарные решения. Можно увидеть различные примеры на странице проекта на GitHub.

Pyramid Flow основана на концепции пирамидального сопоставления потоков — метода, который значительно сокращает вычислительные затраты на генерацию видео при сохранении высокого визуального качества. Процесс генерации разбит на серию пирамидальных этапов, и только финальный этап работает в полном разрешении.

Эта техника описана в препринте статьи «Пирамидальное сопоставление потоков для эффективного генеративного моделирования видео», опубликованном на arXiv 8 октября 2023 года.

Авторами работы являются Ян Цзинь, Чжичэн Сунь, Нинъюань Ли, Кунь Сюй, Хао Цзян, Нань Чжуан, Цюйчжэ Хуан, Ян Сунь, Ядун Му и Чжочэнь Линь. Большинство из них связаны с Пекинским университетом, а некоторые — с компанией Kuaishou Technology.

Авторы отмечают, что способность сжимать и оптимизировать генерацию видео на разных этапах приводит к более быстрой сходимости во время обучения, позволяя Pyramid Flow генерировать больше образцов за одну тренировку. Например, предложенный метод сокращает количество токенов в четыре раза по сравнению с традиционными диффузионными моделями, что повышает эффективность обучения.

Модель способна создавать 5–10-секундные видео в разрешении 768p с частотой 24 кадра в секунду, обучаясь на наборах данных с открытым исходным кодом. В частности, в статье указано, что Pyramid Flow была обучена на следующих наборах данных:

LAION-5B — большой набор данных для исследований в области мультимодального ИИ.

CC-12M — набор пар «изображение-текст», собранных из веб-источников.

SA-1B — содержит высококачественные, не размытые изображения.

WebVid-10M и OpenVid-1M — видео датасеты, широко используемые для генерации видео по тексту.

Всего авторы собрали примерно 10 миллионов однофреймовых видеороликов.

Стоит отметить, что Pyramid Flow доступна для загрузки и использования — даже в коммерческих и корпоративных целях — и предназначена для прямой конкуренции с платными проприетарными решениями, такими как Gen-3 Alpha от Runway, Dream Machine от Luma, Kling и Haulio. Эти решения могут стоить сотни или даже тысячи долларов в год для пользователей с безлимитными подписками на генерацию.

Несмотря на свои сильные стороны, Pyramid Flow имеет некоторые ограничения. Пока что ей недостает некоторых продвинутых возможностей тонкой настройки, доступных в таких моделях, как Gen-3 Alpha от Runway, предлагающей точный контроль над кинематографическими элементами, такими как углы камеры, ключевые кадры и жесты персонажей. Аналогично, Dream Machine от Luma предоставляет расширенные возможности управления камерой, к которым Pyramid Flow еще только стремится.

Кроме того, из-за относительно недавнего запуска Pyramid Flow ее экосистема, хотя и устойчивая, не так развита, как у конкурентов.

Источник: habr.com

0 0 голоса
Рейтинг новости
6418
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии