Исследователи из Университета штата Северная Каролина разработали методику, Multi-View Attentive Contextualization (MvACon), направленную на улучшение отображения трехмерных пространств из двухмерных изображений, полученных с помощью нескольких камер.
Команда под руководством Тяньфу Ву усовершенствовала существующие программы искусственного интеллекта, известные как трансформаторы зрения, используемые в автономных транспортных средствах. MvACon позволяет трансформаторам зрения более эффективно идентифицировать объекты на изображениях и, таким образом, лучше картировать трехмерное окружение.
При тестировании ведущих трансформаторов зрения, таких как BEVFormer и PETR, с использованием данных с шести камер, MvACon неизменно повышал производительность в обнаружении объектов, скорость и точность ориентации.
В планах на будущее — бенчмарк и тестирование в реальных условиях с возможным широким распространением, если будет продемонстрирован успех.
Источник: www.ferra.ru