Ученые из Массачусетского технологического института (MIT) разработали систему под названием «FeatUp», которая позволяет алгоритмам захватывать все детали сцены одновременно — почти как лазерная коррекция для компьютерного зрения.
Когда компьютеры учатся «видеть» на основе изображений и видео, они формируют «представления» о том, что находится на сцене через что-то называемое «признаками». Для создания этих признаков глубокие нейронные сети и модели визуальных основ разбивают изображения на сетку маленьких квадратов и обрабатывают эти квадраты как группу для определения того, что происходит на фото. Каждый квадрат обычно состоит из 16−32 пикселей, поэтому разрешение этих алгоритмов значительно меньше, чем изображений, с которыми они работают. При попытке суммировать и понять фотографии алгоритмы теряют множество пиксельной четкости.
Алгоритм FeatUp может предотвратить потерю информации и увеличить разрешение любой глубокой сети без ущерба скорости или качества. Это позволяет исследователям быстро и легко улучшить разрешение любого нового или существующего алгоритма.
FeatUp помогает не только практикам понять их модели, но также может улучшить множество различных задач, таких как обнаружение объектов, семантическая сегментация (назначение меток пикселям на изображении с помощью меток объектов) и оценка глубины.
Источник: www.ferra.ru