Разработчики Skywork опубликовали Matrix-Game 2.0 — открытую модель для генерации интерактивных 3D-миров. На вход нейросеть получает текстовое описание, а на выход выдаёт геймплейную сцену с возможностью управлять происходящим и исследовать мир.
Модель Matrix-Game 2.0 построена на базе SkyReels-V2. Нейросеть создаёт сцена с частотой 25 кадров в секунду и адаптирует их под действия пользователя. Например, если пользователь переместится в сцене, то модель дорисует окружение. Со стороны сцена похожа на компьютерную игру.
Matrix-Game 2.0 обучали на 1350 кадрах видео с геймплеем. Для генерации сцен доступны пресеты: GTA, Minecraft, TempleRun, город, дикая природа и другие. Итоговый масштаб модели составляет 1,8 млрд параметров. Для локального запуска потребуется не менее 24 ГБ видеопамяти. Нейросеть протестировали на видеоускорителях Nvidia A100 и H100.
Авторы проекта отмечают, что релиз Matrix-Game 2.0 — шаг на пути от моделей для генерации видео по тексту к созданию полноценных интерактивных миров. В перспективе нейросеть можно использовать для обучения нейросетевых агентов для игр, создания симуляций и генерации игр.
Код проекта открыт и опубликован на GitHub. Также у Matrix-Game 2.0 есть страница на Hugging Face. Всё доступно под лицензией MIT.
Источник: habr.com