Исследователи из Университета Цинхуа представили Droplet3D — инновационную модель генерации 3D-контента, которая использует видео в качестве основы для обучения. Такой подход позволяет извлекать пространственную согласованность и семантику объектов напрямую из видеоданных, что обеспечивает более высокое качество и разнообразие создаваемых моделей.
Для обучения команда собрала масштабный датасет Droplet3D-4M, включающий 4 миллиона 3D-объектов с детализированными текстовыми описаниями. На его основе была дополнительно обучена видео-диффузионная модель DropletVideo.
Система способна по текстовому запросу или изображению генерировать последовательные многовидовые рендеры — как отдельных объектов, так и целых сцен. Важный момент: код, датасет и веса модели уже есть в открытом доступе под лицензией Apache 2.0.
Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!
Источник: habr.com