Microsoft представила нейросеть Trellis для генерации трёхмерных моделей. Это открытая нейросеть, которая работает в режимах Text to 3D и Image to 3D. Для локального запуска рекомендуется не менее 16 ГБ VRAM.
Разработчики отмечают, что нейросеть хорошо справляется с генерацией сложных объектов с множеством мелких деталей. Кроме того, Trellis позволяет редактировать модели, например, можно попросить добавить детали или изменить материалы. Microsoft подчёркивает, что другие похожие нейросети так не могут.
Trellis основана на методе Structured LATent (SLAT), который декодирует входные данные в различные форматы, включая полигональные сетки и 3D-гауссианы. Для обучения использовали датасет из 500 тыс. трёхмерных объектов. Trellis можно запустить локально, но для этого рекомендуется использовать видеоускоритель Nvidia и не менее 16 ГБ VRAM.
Пайплайн Trellis
Авторы проекта развернули бесплатное демо на площадке Hugging Face. Для генерации можно использовать как собственные изображения, так и подготовленные разработчиками. Я для теста сгенерировал картинку в ChatGPT и отправил её в Trellis.
Исходное изображение
Нейросеть справилась с генерацией 3D-объекта, но на спине модели заметен странный нарост. Он появился из-за того, что нейросеть неудачно удалила фон, и его фрагмент стал частью объекта.
Сгенерированная 3D-модель
Готовый объект можно экспортировать в формате GLB. Также можно скачать видео с визуализацией.
Визуализация
Код модели доступен на GitHub, также Trellis можно скачать с площадки Huggin Face.
Источник: habr.com