По мере поступления заказов через интернет складской робот берет кружки с полки и укладывает их в коробки для отправки. Все идет своим чередом, пока на складе не обработают изменение, и теперь робот должен брать более высокие и узкие кружки, которые хранятся вверх дном.
Перепрограммирование этого робота включает в себя ручную маркировку тысяч изображений, которые показывают ему, как брать эти новые кружки, а затем обучение системы заново.
Но новая техника, разработанная исследователями Массачусетского технологического института, потребует лишь нескольких человеческих демонстраций, чтобы перепрограммировать робота. Этот метод машинного обучения позволяет роботу поднимать и размещать невиданные ранее объекты в случайных позах, с которыми он никогда не сталкивался. В течение 10–15 минут робот будет готов выполнить новую задачу по перемещению.
В этом методе используется нейронная сеть, специально разработанная для реконструкции форм трехмерных объектов. С помощью всего нескольких демонстраций система использует то, что нейронная сеть узнала о трехмерной геометрии, для захвата новых объектов, похожих на те, что показаны в демонстрациях.
С помощью моделирования и использования настоящей роботизированной руки исследователи показали, что их система может эффективно манипулировать невиданными ранее кружками, мисками и бутылками, расставленными в случайных позах, используя всего 10 демонстраций для обучения робота.
Наш основной вклад заключается в общей способности гораздо более эффективно предоставлять новые навыки роботам, которым необходимо работать в более неструктурированных средах, где может быть много вариаций. Концепция обобщения путем построения является захватывающей возможностью, потому что обычно эта проблема намного сложнее», - говорит Энтони Симеонов, аспирант кафедры электротехники и компьютерных наук (EECS) и соавтор статьи.
Симеонов написал статью вместе с ведущим автором Йилун Ду, аспирантом EECS; Андреа Тальясаччи, научный сотрудник Google Brain; Джошуа Б. Тененбаум, профессор карьеры Пола Э. Ньютона в области когнитивных наук и вычислений на факультете мозга и когнитивных наук и член Лаборатории компьютерных наук и искусственного интеллекта (CSAIL); Альберто Родригес, выпускник 1957 года, доцент кафедры машиностроения; и старшие авторы Пулкит Агравал, профессор CSAIL, и Винсент Сицманн, новый доцент EECS. Исследование будет представлено на Международной конференции по робототехнике и автоматизации.
Геометрия захвата
Робота можно обучить поднимать определенный предмет, но если этот предмет лежит на боку (возможно, он упал), робот воспринимает это как совершенно новый сценарий. Это одна из причин, по которой системам машинного обучения так трудно обобщать новые объектные ориентации.
Чтобы преодолеть эту проблему, исследователи создали новый тип модели нейронной сети, поле нейронного дескриптора (NDF), которое изучает трехмерную геометрию класса предметов. Модель вычисляет геометрическое представление для определенного элемента, используя трехмерное облако точек, которое представляет собой набор точек данных или координат в трех измерениях. Точки данных можно получить с камеры глубины, которая предоставляет информацию о расстоянии между объектом и точкой обзора. Хотя сеть была обучена моделированию на большом наборе данных синтетических 3D-форм, ее можно напрямую применять к объектам в реальном мире.
Команда разработала NDF со свойством, известным как эквивариантность. С этим свойством, если модели показать изображение вертикальной кружки, а затем показать изображение той же кружки на боку, она понимает, что вторая кружка - это тот же объект, только повернутый.
«Эквивариантность - это то, что позволяет нам гораздо эффективнее справляться со случаями, когда объект, который вы наблюдаете, находится в произвольной ориентации», - говорит Симеонов.
По мере того как NDF учится реконструировать формы похожих объектов, он также учится связывать связанные части этих объектов. Например, он узнает, что ручки кружек похожи, даже если одни кружки выше или шире других, или имеют ручки меньше или длиннее.
«Если бы вы хотели сделать это с помощью другого подхода, вам пришлось бы вручную маркировать все части. Вместо этого наш подход автоматически обнаруживает эти части по реконструкции формы», - говорит Ду.
Исследователи используют эту обученную модель NDF, чтобы обучить робота новому навыку, используя всего несколько физических примеров. Они перемещают руку робота на ту часть объекта, которую они хотят захватить, например, на край миски или ручку кружки, и записывают расположение кончиков пальцев.
Поскольку NDF так много знает о трехмерной геометрии и о том, как реконструировать формы, он может сделать вывод о структуре новой формы, что позволяет системе перенести демонстрации на новые объекты в произвольных позах, объясняет Ду.
Выбор победителя
Они протестировали свою модель в симуляции и на реальном роботизированном манипуляторе, используя в качестве объектов кружки, миски и бутылки. Их метод показал 85-процентный успех в задачах по сбору и размещению новых объектов в новых ориентациях, в то время как лучший базовый метод смог достичь только 45-процентного успеха. Успех означает схватить новый объект и поместить его в нужное место, например, повесить кружку на вешалку.
Многие базовые линии используют информацию о 2D-изображении, а не о 3D-геометрии, что затрудняет для этих методов интеграцию эквивариантности. Это одна из причин, по которой метод NDF работает намного лучше.
Хотя исследователи были довольны его работой, их метод работает только для определенной категории объектов, на которых он обучен. Робот, обученный подбирать кружки, не сможет подбирать коробки или наушники, поскольку эти объекты имеют геометрические особенности, слишком отличающиеся от того, на чем обучалась сеть.
"В будущем было бы идеально масштабировать его до множества категорий или полностью отказаться от понятия категории", - говорит Симеонов.
Они также планируют адаптировать систему для нежестких объектов и, в долгосрочной перспективе, позволить системе выполнять задачи захвата и размещения при изменении целевой области.
Эта работа частично поддерживается Агентством перспективных оборонных исследовательских проектов, Агентством оборонной науки и технологий Сингапура и Национальным научным фондом.