Модели Goku от ByteDance могут создавать реалистичные видеоролики о продуктах без участия людей-актеров

Последние модели искусственного интеллекта китайской технологической компании могут генерировать реалистичные видеоролики, на которых люди взаимодействуют с продуктами, потенциально меняя подход компаний к созданию рекламного контента.

Согласно прилагаемой статье, ByteDance создала свои новые модели ИИ Goku, используя массив данных, состоящий примерно из 160 миллионов пар «изображение — текст» и 36 миллионов пар «видео — текст». Данные взяты из академических наборов данных, интернет-источников и партнёрских организаций.

В отличие от других видеомоделей, Goku может создавать как статичные изображения, так и видео на основе текстовых описаний. Система использует новую архитектуру трансформера с 2–8 миллиардами параметров, которая одновременно обрабатывает оба формата.

Система сжимает изображения и видео в единый формат с помощью общего кодировщика (VAE), аналогично сжатию данных. Затем пользовательский трансформер обрабатывает эти сжатые данные. Такая архитектура в сочетании со специализированным генеративным процессом под названием Rectified Flow, который заменяет часто используемый метод диффузии, помогает Goku создавать стабильные и высококачественные результаты.

Обучение происходит в несколько этапов: сначала система учится сопоставлять текст с изображениями, затем она обучается на изображениях и видео одновременно. На последнем этапе модель оптимизируется специально для вывода изображений или видео.

Чтобы справиться с этим сложным процессом обучения, ByteDance разработала специализированную инфраструктуру, которая позволяет эффективно использовать доступные вычислительные ресурсы за счёт распараллеливания. Система также может эффективно сохранять прогресс и быстро возобновлять работу, если что-то пойдёт не так, обеспечивая стабильное обучение на больших компьютерных кластерах.

По сравнению с другими современными моделями видео, Goku, кажется, лучше реагирует на подсказки и выдаёт более качественные результаты. 

В тестах Goku хорошо справляется как с генерацией изображений, так и с генерацией видео. Модель видео Goku-T2V набрала 84,85 балла в VBench, превзойдя аналогичные инструменты таких компаний, как Kling и Pika. Качество вывода также значительно улучшилось по сравнению с предыдущей моделью искусственного интеллекта Jimeng от ByteDance.

ByteDance опубликовала несколько примеров роликов на странице проекта, от реалистичных до креативных. Хотя компания не уточнила ограничения Goku, все примеры — это четырёхсекундные ролики с частотой 24 кадра в секунду и разрешением 720p.

Компания ByteDance видит применение Goku в производстве медиаконтента, рекламе, играх и моделировании мира. Специализированная версия Goku+ ориентирована на создание рекламного контента с участием людей и продуктов.

Goku+ оптимизирован для создания максимально реалистичных рекламных роликов.

Goku+ может генерировать реалистичные видеоролики с людьми, демонстрирующими естественные движения рук, мимику и жесты, на основе текстовых описаний. Он также может превращать изображения продуктов в видеоклипы, которые показывают взаимодействие людей.

Компания заявляет, что это может сократить расходы на производство видеорекламы на 99 процентов. В настоящее время компании часто платят значительные суммы «создателям пользовательского контента» — авторам контента в социальных сетях, которые снимают реалистичные видеоролики о товарах.

Хотя ByteDance работала над несколькими проектами в области искусственного интеллекта для видео, Goku, по-видимому, является одним из самых масштабных. На данный момент это всего лишь исследовательская версия. Компания, скорее всего, будет использовать свою платформу TikTok, чтобы предлагать эти инструменты для создания видео рекламодателям, хотя она может столкнуться с потенциальными трудностями из-за санкций правительства США.

Источник

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии