Исследователи выпустили GenCAD — открытую модель для генерации параметрических трёхмерных CAD-моделей на основе фотографий. В отличие от стандартных генераторов image-to-mesh, GenCAD создаёт не полигональную сетку, а полный скрипт построения детали. По словам разработчиков, его можно сразу загрузить в редактор, изменить и отправить в производство.
Авторы проекта отмечают, что сложность CAD-моделей затрудняет обучение эффективных нейросетей для их генерации. Разработчики часто жертвуют точностью и используют для генерации облака точек, воксели или полигональные сетки. Такие способы генерации хорошо подходят для дизайна, но не для инженерных задач и производства.
Для решения проблемы исследователи разработали GenCAD. Архитектура модели включает в себя:
трансформе-кодировщик, который считывает последовательность CAD-команд и сжимает её в компактное внутреннее представление;
модель контрастивного обучения, которая формирует общее латентное пространство для CAD-команд и CAD-изображений;
диффузионную модель, которая по фотографии генерирует скрытое представление CAD-команд;
декодер, превращающий скрытое представление в последовательность параметрических CAD-команд.
Главное преимущество GenCAD в том, что на выходе модель выдаёт не «трёхмерную болванку», а полноценную CAD-модель. Её можно редактировать, форматировать и отправлять в производство.
Код проекта доступен на GitHub. Также разработчики опубликовали датасет и набор предварительно обученных моделей. Полный текст исследования можно найти на портале arXiv.
Источник: habr.com