Вышла VoxHammer — нейросеть для локального редактирования 3D-объектов

Исследователи Tencent представили открытую модель машинного обучения для локального редактирования 3D-объектов. Главная особенность нейросети в том, что она вносит изменения напрямую в родное латентное трёхмерное пространство, а не в многоракурсные изображения.

Во время редактирования VoxHammer сперва получает инвертированную траекторию и кэширует KV-токены. После этого нейросеть начинает «пересобирать» 3D-модель, учитывая новые вводные, включая текстовые запросы, изображения и наложенную маску. Если пользователь не просил изменять фрагмент, то модель не будет его трогать. На выходе получается тот же трёхмерный объект, но уже с точечными изменениями и без артефактов.

Другие методы редактирования 3D-объектов каждый раз заново генерируют объект из набора изображений с разных ракурсов. В таком случае при каждой генерации получаются разные модели. При этом сложно заранее предсказать, как сильно новая модель будет отличаться от исходной.

VoxHammer можно запустить локально. Авторы проекта рекомендуют использовать машину под управлением Ubuntu 20.04/22.04. Также потребуется видеокарта Nvidia A100 c 80 ГБ видеопамяти.

Код проекта открыт и опубликован на GitHub. На Hugging доступен бенчмарк для оценки сохранности нередактируемых областей.

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии