Google представила нейросеть Lumiere для генерации коротких реалистичных видео. Для этого используется модель пространственно-временной диффузии (Space-Time-U-Net, STUNet).
Lumiere генерирует пятисекундные видеоролики по текстовому описанию. Главное отличие модели Space-Time-U-Net, которая используется в Lumiere, в том, что она создаёт видео за один проход. Другие нейросети для этого сначала генерируют ключевые кадры, а потом заполняет время между ними. Из-за этого часто возникает несогласование кадров между собой.
Для обучения модели преобразования текста в видео использовали датасет из 30 млн роликов с текстовым описанием. Все видео в наборе данных были в разрешении 128×128 пикселей, длиной 80 кадров и частотой 16 кадров в секунду. На выходе нейросеть генерирует пятисекундные ролики 1024×1024 пикселей.
В Lumiere есть несколько режимов работы. Нейросеть может генерировать видео по текстовому описанию, анимировать изображения, придерживаться заданного стиля и изменять только указанные фрагменты ролика.
Подробное исследование нового метода генерации видео инженеры опубликовали на портале arxive.org. На сайте проекта Lumiere можно ознакомиться с примерами работы нейросети.
Источник: habr.com