Boston Dynamics рассказала об обучении робота Atlas сложным задачам на производстве

В Boston Dynamics поделились тем, как человекоподобный робот Atlas учится выполнять сложные производственные задачи, требующие понимания геометрических и семантических свойств мира — то есть формы и контекста объектов, с которыми он взаимодействует. 

Для выполнения даже простых задач — например, когда нужно взять деталь автомобиля и положить её в нужный слот, — они разбиваются на несколько этапов, каждый из которых требует обширных знаний об окружающей среде. Сначала Atlas обнаруживает и идентифицирует объект (блестящие и металлические, либо малоконтрастные и тёмные). После выбора объекта робот решает, куда его поместить и каким образом доставить.

Наконец, Atlas необходимо точно разместить объект. Поэтому робот также должен уметь предпринимать корректирующие действия, когда что-то идёт не так. Например, он должен искать и подбирать упавшую часть с земли.

Эти проблемы требуют новых методов и напрямую влияют на конструкцию системы восприятия Atlas, которая включает хорошо откалиброванные датчики и элементы кинематики, современные модели машинного обучения и оценки состояния. 

Изначально система обнаружения 2D-объектов предоставляет роботу информацию в виде идентификаторов, ограничивающих рамки и точки интереса. Таким образом Atlas понимает тип и занимаемый объектами объём, чтобы избежать столкновений с ними. Наряду с обнаружением и идентификацией робот воспринимает их углы как ключевые точки. Это 2D-пиксельные точки, которые бывают двух видов: внешние (зелёные) и внутренние (красные). Внешние захватывают оболочку приспособления. Внутренние более многочисленны и разнообразны, они захватывают внутреннее распределение полок и отсеков внутри конкретного приспособления. Они дают возможность точно локализовать отдельные слоты.

Для классификации приспособлений и прогнозирования ключевых точек Atlas использует лёгкую сетевую архитектуру, которая обеспечивает компромисс между производительностью и восприятием в реальном времени.

Чтобы манипулировать объектами внутри приспособления, Atlas сначала оценивает свое собственное положение. Робот делает это с помощью модуля локализации приспособления на основе ключевых точек.

Система локализации приспособлений принимает как внутренние, так и внешние ключевые точки из конвейера обнаружения объектов и выравнивает их с предыдущей моделью ожидаемого пространственного распределения, минимизируя ошибку повторного проецирования. Система также принимает кинематическую одометрию — меру того, насколько и в каком направлении движется Atlas, — чтобы объединить оценки положения приспособления в согласованный кадр и достичь более высокой надёжности прогнозирования шума ключевых точек.

Ключевой проблемой для достижения надёжных оценок положения приспособления является работа с частыми окклюзиями и ключевыми точками вне поля зрения. Например, когда Atlas находится близко к приспособлению, некоторые внешние ключевые точки могут не быть в поле зрения. Система локализации воспринимает гораздо большее количество ключевых точек на внутренней стороне приспособления, углы между разделителями слотов, которые напрямую связаны с тем, как объекты вставляются или извлекаются. Это создает проблему ассоциации между 2D-ключевыми точками и 3D-углом. Atlas делает первые выводы из внешних ключевых точек, что позволяет ему предположить, какова внутренняя ассоциация ключевых точек. Сочетание внутренних и внешних ключевых точек дает более надёжную оценку положения приспособления и всех его слотов.

Некоторые приспособления визуально идентифицируются по отношению друг к другу. Проблему класса приспособлений Atlas решает с помощью сочетания временной согласованности и начального априорного значения относительного положения между различными приспособлениями — например, ожидания, что приспособление A будет на полметра правее приспособления B.

Все эти функции объединяются в гибкую систему восприятия приспособлений. В видео, когда кто-то перемещает приспособление позади Atlas, робот быстро осознаёт несоответствие между ожиданием и реальностью, возвращает местоположение приспособления и соответствующим образом перестраивает поведение.

Далее роботу требуется оценить позицию объекта, чтобы понять, как с ним взаимодействовать. Навыки манипулирования объектами Atlas основаны на точном восприятии, ориентированном на объект в реальном времени. Система отслеживания позы SuperTracker объединяет различные потоки информации: кинематику робота, зрение и, при необходимости, величины прикладываемой силы. Информация о кинематике от сочленённых энкодеров Atlas позволяет инженерам определить, где в пространстве находятся захваты робота. Когда Atlas распознаёт, что он схватил объект, эта информация обеспечивает предварительное представление о том, где он должен находиться, когда робот перемещает корпус. Объединяя кинематические данные, Atlas может обрабатывать ситуации, когда объекты визуально закрыты или находятся вне поля зрения его камер, а также информировать инженера о том, когда объект выскальзывает из захвата.

Когда объект находится в поле зрения камер, Atlas использует модель оценки позы, применяющую подход рендеринга и сравнения для оценки по монокулярным изображениям. Модель обучается с использованием крупномасштабных синтетических данных и обобщает нулевой снимок на новые объекты с учётом модели САПР. При инициализации с предварительной 3D-позой модель итеративно уточняет её, чтобы минимизировать расхождение между рендерингом модели САПР и захваченным изображением с камеры. В качестве альтернативы оценщик позы может быть инициализирован из 2D-априорной области интереса (например, маски объекта). Затем Atlas генерирует пакет гипотез о позе, которые подаются в модель оценки, и уточняется наиболее подходящая. 

SuperTracker получает визуальные оценки позы как 3D-априорную. В сценариях манипуляций, с которыми сталкивается Atlas, визуальные оценки позы могут быть неоднозначными из-за окклюзии, частичной видимости и изменений освещения. Для их уточнения используются самосогласованность (вместо одной априорной позы внедряется пакет инициализаций, чтобы проверить выходные данные с помощью алгоритма консенсуса), а также кинематическая согласованность (для обеспечения контакта любую прогнозируемую позу слегка меняют). Вводные данные кинематики и камеры обрабатываются асинхронно с использованием сглаживателя с фиксированной задержкой. Сглаживатель берёт историю высокочастотных кинематических вводных данных от сочленённых энкодеров Atlas, а также низкочастотные визуальные оценки позы из модели машинного обучения, и определяет наилучшую траекторию объекта с шестью степенями свободы.

При этом важно хорошо откалибровать координацию рук и глаз Atlas. За это отвечает набор тщательно разработанных процедур калибровки камеры и кинематики, которые компенсируют неточность изготовления и сборки корпуса робота, а также физические изменения, которые происходят со временем из-за внешних факторов, таких как колебания температуры или повторяющиеся физические воздействия.

Как отмечает команда, в Boston Dynamics сосредоточены на движении к единой базовой модели для Atlas через сочетание точной механики и адаптивного ИИ.

Ранее Hyundai и Boston Dynamics сообщили о планах по развитию партнёрства, в рамках которого «десятки тысяч» роботов начнут работать на заводах корейского автопроизводителя. Помимо этого Hyundai начнёт выпускать роботов на своих производственных мощностях.

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии