Одно фото вместо недели моделирования: Lyra 2.0 от NVIDIA умеет не забывать, что находится за кадром

Исследовательское подразделение NVIDIA выложило в открытый доступ Lyra 2.0 — систему генеративного искусственного интеллекта, которая строит связные трехмерные сцены на основе всего одного статичного изображения.

Главная особенность релиза заключается не столько в факте преобразования 2D в 3D (подобные инструменты появлялись и раньше), сколько в способности Lyra 2.0 удерживать геометрическую согласованность окружения при длительном виртуальном перемещении камеры. Согласно сопроводительной документации к исследованию, модель способна генерировать сцены протяженностью примерно 90 метров без критического разрушения структуры объектов на заднем плане. Разработчики Lyra 2.0 выделили две фундаментальные проблемы, характерные для существующих видеогенеративных моделей при попытке создать эффект прогулки по виртуальному миру.

Первая — так называемая пространственная забывчивость. Когда виртуальная камера отворачивается от какого-либо участка и затем возвращается к нему, нейросеть склонна рисовать эту область заново. В Lyra 2.0 инженеры применили метод сохранения каркасной геометрии для каждого просчитанного кадра и при обратном движении камеры система обращается к этому «слепку» местности, что существенно снижает визуальную несогласованность. Вторая сложность — временной дрейф, то есть постепенное накопление микроскопических ошибок синтеза при автогенерации длинных последовательностей. Вместо того чтобы игнорировать собственные артефакты, модель в процессе обучения намеренно сталкивали с ее же искаженными данными, что позволило выработать механизм самокоррекции.

В основе пайплайна лежит диффузионный трансформер Wan 2.1 с 14 миллиардами параметров. Процесс работы разбит на два этапа. Сначала по загруженной фотографии и заданной пользователем траектории генерируется последовательность кадров, затем полученное видео в реальном времени преобразуется в облака точек и полигональную сетку. Результат адаптирован для экспорта в физические движки. На данный момент система работает только со статическими сценами. Динамические объекты, движущиеся люди или транспортные средства не генерируются, как в Genie 3, но там свои проблемы.

Примеры генерации, на сайте NVIDIA есть ещё

Код доступен на GitHub, демонстрационные веса загружены на Hugging Face. Прямое использование технологии не требует мощностей дата-центра — часть вычислений адаптирована для локального запуска на пользовательских GPU с архитектурой Ada Lovelace и выше.

Интересно, насколько быстро независимые студии и моддеры подхватят эту технологию для прототипирования уровней или создания VR-экспозиций без навыков классического 3D-моделирования? Делитесь мнением в комментариях.

PC НовостиЖелезо и технологиинейросетиNVIDIA

Источник: vgtimes.ru

0 0 голоса

Рейтинг новости