Методы дрессировки собак помогают исследователям обучать роботов новым трюкам

Автор: Селезнев Владимир [email protected].

Публикация: 2025-03-13 17:10.

Последние изменения: 2025-03-13 17:10

С помощью методики дрессировки, обычно используемой для обучения собак сидеть и оставаться на месте, компьютерщики из Университета Джона Хопкинса показали роботу, как научиться нескольким новым трюкам, в том числе складыванию блоков. С помощью этого метода робот по имени Спот смог за несколько дней научиться тому, на что обычно уходит месяц.

Используя положительное подкрепление, подход, знакомый всем, кто использовал лакомства для изменения поведения собаки, команда значительно улучшила навыки робота и сделала это достаточно быстро, чтобы обучение роботов для работы в реальном мире стало более осуществимым предприятием. Результаты недавно опубликованы в статье под названием «Хороший робот!».

"Вопрос заключался в том, как заставить робота выучить навык?" сказал ведущий автор Эндрю Хундт, аспирант, работающий в Лаборатории вычислительного взаимодействия и робототехники Джона Хопкинса. «У меня были собаки, поэтому я знаю, что поощрения работают, и это послужило вдохновением для того, как я разработал алгоритм обучения».

В отличие от людей и животных, которые рождаются с развитым интуитивным мозгом, компьютеры - это чистый лист, и им приходится учиться всему с нуля. Но настоящее обучение часто достигается путем проб и ошибок, и робототехники все еще выясняют, как роботы могут эффективно учиться на своих ошибках.

Команда добилась этого, разработав систему вознаграждения, которая работает для робота так же, как собака относится к работе. Там, где собака могла получить печенье за хорошо выполненную работу, робот зарабатывал числовые баллы.

Хундт вспоминает, как однажды он научил своего щенка метиса терьера по кличке Леа команде «оставь его», чтобы она могла игнорировать белок на прогулке. Он использовал два вида угощений, обычные угощения для дрессировщиков и кое-что получше, например, сыр. Когда Лия была взволнована и нюхала угощения, она ничего не получила. Но когда она успокоилась и отвела взгляд, она получила хороший материал. «Именно тогда я дал ей сыр и сказал: «Оставь его! Хорошая Лия!»

Точно так же, чтобы складывать блоки, роботу Spot нужно было научиться сосредотачиваться на конструктивных действиях. Когда робот исследовал блоки, он быстро понял, что правильное поведение при укладке приносит высокие баллы, а неправильное ничего не приносит. Протянуть руку, но не схватить блок? Нет очков. Опрокинуть стек? Однозначно без баллов. Спот заработал больше всего, поместив последний блок на вершину стопки из четырех блоков.

Тактика обучения не только сработала, потребовалось всего несколько дней, чтобы научить робота тому, на что раньше уходили недели. Команде удалось сократить время практики, сначала обучив смоделированного робота, который очень похож на видеоигру, а затем запустив тесты с помощью Spot.

«Робот хочет получить более высокий балл», - сказал Хундт. «Он быстро учится правильному поведению, чтобы получить лучшую награду. На самом деле, раньше роботу требовался месяц практики, чтобы достичь 100% точности. Мы смогли сделать это за два дня».

Позитивное подкрепление помогло роботу не только научиться складывать блоки, но и с системой начисления баллов робот так же быстро научился ряду других задач - даже тому, как играть в симулированную навигационную игру. Способность учиться на ошибках во всех типах ситуаций имеет решающее значение для разработки робота, способного адаптироваться к новым условиям.

Сначала робот понятия не имеет, что он делает, но с каждой практикой он будет становиться все лучше и лучше. Он никогда не сдается, продолжает пытаться складывать и способен выполнить задачу в 100% случаев, - сказал Хундт.

Команда предполагает, что эти открытия могут помочь обучить домашних роботов стирать и мыть посуду - задачи, которые могут быть популярны на открытом рынке и помочь пожилым людям жить независимо. Это также может помочь в разработке улучшенных беспилотных автомобилей.

«Наша цель - в конечном итоге разработать роботов, способных выполнять сложные задачи в реальном мире - например, сборку продуктов, уход за пожилыми людьми и операции», - сказал Хагер. «В настоящее время мы не знаем, как программировать такие задачи - мир слишком сложен. Но подобная работа показывает нам, что идея о том, что роботы могут научиться выполнять такие реальные задачи безопасным и эффективным способом, имеет многообещающие перспективы. путь."