ByteDance выпустила Goku — семейство нейросетей для генерации видео

Китайская компания ByteDance представила Goku — семейство нейросетей для генерации видео. Модели машинного обучения разработали совместно с исследователями Гонконгского университета.

Горизонтальные видео от Goku

Goku генерирует видео в горизонтальной и вертикальной ориентации экрана в нескольких режимах, включая Text to Video, Image to Video и Text to Image. Нейросеть построена на архитектуре Rectified flow transformers, которая за счёт коррекции потока данных между токенами создаёт более реалистичные и сложные работы.

Вертикальные видео от Goku

В бенчмарке VBench модель Goku набрала 84,85 балла и в рейтинге Text to Video обошла нейросети Pika-1.0, OpenSora V1.2, Kling и Mira. В GenEval и DPG-Bench решение от ByteDance набрало 0,76 и 83,65 балла соответственно.

Результаты тестов в VBench

Помимо базовой модели семейство включает в себе Goku+ — нейросеть для генерации рекламных видео длительностью до 20 секунд. Нейросеть может создавать реалистичных людей в кадре, которые активно жестикулируют во время разговора. Помимо людей в кадр можно добавить рекламируемый продукт.

Генеративная реклама от Goku+

Примеры видео от Goku по промптам из MovieGenBench доступны на сайте проекта. Также авторы работы поделились текстом исследования, а результаты тестов опубликовали на GitHub.

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии