Компания Tencent представила релиз Hunyuan GameCraft — ИИ‑системы, способной оживлять отдельные картинки, превращая их в интерактивное видео.
В отличие от привычных видеогенераторов, создающих лишь готовый отрезок ролика, GameCraft позволяет зрителю самому управлять камерой в реальном времени с помощью клавиш WASD или стрелок, свободно перемещаясь по созданным сценам. В основе системы лежит открытая модель Tencent для генерации видео по тексту — HunyuanVideo. По словам разработчиков, технология обеспечивает исключительно плавное и стабильное движение камеры.
vimeo.com
Система поддерживает три оси перемещения — вперёд/назад, влево/вправо и вверх/вниз, а также две оси вращения для обзора по сторонам. Функция наклона камеры исключена: в Tencent отмечают, что в большинстве игр это редкость. Специальный «кодировщик действий» переводит сигналы с клавиатуры в числовые команды, которые понимает видеогенератор. При этом учитывается и скорость: чем дольше удерживается клавиша, тем стремительнее движение.
Архитектура Hunyuan GameCraft: ввод с клавиатуры обрабатывается кодировщиком действий и передаётся в HunyuanVideo для генерации видео. Бинарная маска разделяет уже существующие кадры и те, что нужно создатьГибридное обучение для длинных и цельных роликов
Чтобы сохранить высокое качество изображения даже в затяжных эпизодах, GameCraft применяет метод под названием гибридное обучение с опорой на историю (hybrid history‑conditioned training). Вместо того чтобы рождать весь ролик целиком, модель создаёт его постепенно, опираясь на уже сгенерированные куски. Видео делится на сегменты примерно по 1,3 с. Бинарная маска указывает системе, какие части кадра уже готовы, а какие нужно дорисовать, — благодаря этому результат остаётся и последовательным, и гибким.
Hunyuan GameCraft использует гибридное обучение с опорой на историю ©, чтобы повысить согласованность видео. Напротив, методы без обучения (a) ухудшают качество, а чистая привязка к прошлым кадрам (b) делает отклик медленнее
По наблюдениям Tencent, методы без обучения приводят к резкому падению качества картинки, а опора исключительно на историю снижает отзывчивость. Гибридный подход сочетает оба способа и позволяет получать плавные, устойчивые видео, которые в то же время мгновенно реагируют на действия пользователя, даже при продолжительных сессиях.
Обучение на миллионе игровых роликов
Для тренировки GameCraft использовалось более миллиона записей геймплея из сотни ААА‑игр — от Assassin»s Creed и Red Dead Redemption до Cyberpunk 2077. Сцены и действия автоматически разбивались на сегменты, проходили фильтрацию по качеству, снабжались аннотациями и структурированными описаниями.
Датасет Hunyuan GameCraft: автоматическое разбиение сцен и действий, фильтрация по качеству, аннотации и структурированные описания видео
Разработчики также создали 3000 движущихся последовательностей, смоделированных на цифровых 3D‑объектах. Обучение проходило в два этапа на 192 графических процессорах Nvidia H20 и заняло 50 000 итераций. В прямом сравнении с Matrix Game система GameCraft уменьшила количество ошибок взаимодействия на 55%. Кроме того, она показала более высокое качество изображения и точность управления камерой по сравнению со специализированными моделями вроде CameraCtrl, MotionCtrl и WanX Cam.
Чтобы сделать работу GameCraft практичной, в неё встроили Phased Consistency Model (PCM), ускоряющую генерацию. В отличие от классической диффузионной схемы, PCM пропускает промежуточные шаги и сразу переходит к вероятным финальным кадрам, благодаря чему скорость вывода возрастает в 10–20 раз.
GameCraft обеспечивает скорость рендера в реальном времени 6,6 к/с, а задержка отклика на действия не превышает 5 с. Внутри система работает с частотой 25 к/с, обрабатывая видео пакетами по 33 кадра при разрешении 720p. Такое сочетание скорости и качества делает интерактивное управление вполне комфортным.
Полный код и веса модели доступны на GitHub. В ближайшее время планируется запуск веб‑демо.
GameCraft вписывается в растущее направление интерактивных мировых моделей ИИ. Ранее Tencent представила Hunyuan World Model 1.0, способную создавать трёхмерные сцены по тексту или изображениям, но ограниченную статичными панорамами. Среди конкурентов — Genie 3 от Google DeepMind и открытая Matrix Game 2.0 от Skywork.
Хотите быть в курсе важных новостей из мира ИИ? Подписывайтесь на наш телеграм: BotHub AI News.
Источник: habr.com