Исследователи Meta* выпустили VFusion3D — нейросеть для генерации 3D-моделей по фотографии

Исследовательская группа компании Meta* выпустила нейросеть VFusion3D, предназначенную для генерации трёхмерных моделей. Разработчики заявляют, что нейросеть показывает лучшие результаты по максимальному разрешению моделей и создаёт минимум артефактов.

Команда проекта отметила, что в мире пока нет нейросетей для генерации качественных трёхмерных моделей из-за того, что сложно получить данные для обучения. Ситуация проще обстоит с текстами, музыкой и видео — этих данных много в свободном доступе. Исследователи Meta* решили эту проблему, собрав собственный датасет синтетических данных, созданный с помощью видеодиффузии. На этом наборе и обучали VFusion3D.

Итоговая нейросеть генерирует 3D-объекты в высоком разрешении и с меньшим количеством ошибок, если сравнивать результат с другими открытыми решениями. При этом для генерации нейросети надо передать всего одну фотографию желаемого объекта. Разработчики протестировали VFusion3D вместе с LGM и OpenLRM. Заметно, что нейросеть от Meta* лучше передаёт детали.

Разработчики отмечают, что VFusion3D можно масштабировать. Для этого планируется создать более мощную модель машинного обучения и увеличить количество данных в датасете. В перспективе нейросеть может стать базовой, на основе которой можно будет реализовывать другие режимы, например, генерацию трёхмерных объектов по текстовому описанию.

Текст исследовательской работы опубликован на портале arXive, а код и инструкции — на GitHub. На площадке Hugging Face развернули тестовое приложение, в котором можно проверить возможности VFusion3D на собственных изображениях.

Meta Platforms*, а также принадлежащие ей социальные сети Facebook** и Instagram**: * — признана экстремистской организацией, её деятельность в России запрещена ** — запрещены в России

Источник: habr.com

0 0 голоса
Рейтинг новости
3027
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии