ИИ-система StreamDiT генерирует видео в реальном времени со скоростью 16 кадров в секунду и разрешением 512p

Новая система искусственного интеллекта под названием StreamDiT может генерировать видео в реальном времени на основе текстовых описаний, открывая новые возможности для игр и интерактивных медиа.

StreamDiT, разработанный исследователями из Meta* и Калифорнийского университета в Беркли, создаёт видео в режиме реального времени со скоростью 16 кадров в секунду с помощью одного высокопроизводительного графического процессора. Модель с 4 миллиардами параметров выдаёт видео в разрешении 512p. В отличие от предыдущих систем, которые генерировали полные видеоклипы перед воспроизведением, StreamDiT создаёт видеопотоки в режиме реального времени, кадр за кадром.

Команда продемонстрировала различные варианты использования. StreamDiT может на лету генерировать минутные видеоролики, отвечать на интерактивные запросы и даже редактировать существующие видео в режиме реального времени. В одной из демонстраций свинья на видео превратилась в кошку, а фон остался прежним.

С помощью текстовой подсказки StreamDiT преобразует бегущую свинью из входного видео в кошку из выходного, демонстрируя редактирование видео на основе подсказок в реальном времени

Система основана на специальной архитектуре, разработанной для повышения скорости. StreamDiT использует скользящий буфер для одновременной обработки нескольких кадров, работая над следующим кадром и выводя предыдущий. Новые кадры сначала получаются зашумлёнными, но постепенно очищаются, пока не становятся готовыми к отображению. Согласно статье, системе требуется около полсекунды для создания двух кадров, а после обработки получается восемь готовых изображений.

StreamDiT делит буфер на фиксированные опорные кадры и короткие фрагменты. Визуализация автопоследовательности показывает, что по мере шумоподавления сходство изображений уменьшается (от зелёного к красному) Тренировка универсальности

Процесс обучения был разработан таким образом, чтобы повысить универсальность. Вместо того чтобы сосредоточиться на одном методе создания видео, модель обучалась с использованием нескольких подходов на 3000 высококачественных видео и более крупном наборе данных, состоящем из 2,6 миллиона видео. Обучение проводилось на 128 графических процессорах Nvidia H100. Исследователи обнаружили, что наилучшие результаты даёт сочетание фрагментов размером от 1 до 16 кадров.

Чтобы обеспечить производительность в реальном времени, команда внедрила метод ускорения, который сокращает количество необходимых вычислительных шагов со 128 до 8 с минимальным влиянием на качество изображения. Архитектура также оптимизирована для повышения эффективности: вместо того чтобы каждый элемент изображения взаимодействовал со всеми остальными, обмен информацией происходит только между локальными областями.

При прямом сравнении StreamDiT превзошёл существующие методы, такие как ReuseDiffuse и диффузия FIFO, особенно в отношении видео с большим количеством движений. В то время как другие модели создавали статичные сцены, StreamDiT генерировал более динамичные и естественные движения.

Эксперты-люди оценивали работу системы с точки зрения плавности движения, полноты анимации, согласованности кадров и общего качества. Во всех категориях StreamDiT показал лучшие результаты при тестировании восьмисекундных видео в разрешении 512p.

Эксперты-люди оценивали естественность движения, его полноту, согласованность кадров и общее впечатление Модель большего размера, лучшего качества, но медленнее

Команда также провела эксперимент с гораздо более крупной моделью с 30 миллиардами параметров, которая обеспечивала ещё более высокое качество видео, хотя и была недостаточно быстрой для использования в реальном времени. Результаты показывают, что этот подход можно масштабировать для более крупных систем.

Сохраняются некоторые ограничения, в том числе ограниченная способность StreamDiT «запоминать» более ранние фрагменты видео и периодические видимые переходы между разделами. Исследователи говорят, что работают над решением этих проблем.

Другие компании также изучают возможности создания видео с помощью ИИ в режиме реального времени. Например, Odyssey недавно представила авторегрессионную модель мира, которая покадрово адаптирует видео в ответ на действия пользователя, делая интерактивный опыт более доступным.

Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

*Meta и её продукты (Instagram, Facebook) запрещены на территории Российской Федерации

Перевод, источник новости здесь.

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии