Как робот-велоцираптор, обучающийся с помощью машинного обучения, научится играть в вратаря?

Первоначально опубликовано на Medium.

1,5-метровый серебристо-серый велоцираптор делает выпад вперед, прерывая полет теннисного мяча головой, прежде чем мяч достигнет футбольной сетки в конце зала. Его хвост вытягивается, останавливая очередной мяч. Он несколько неуклюже поворачивается и делает три шага в обратном направлении, чтобы перехватить третий мяч.

Роботы, строящие Тесла, не так сложны, как велоцирапторы искусственного интеллекта, преследующие цели.

Он делает это в течение часа, бегая взад и вперед, пока три машины с теннисными мячиками бросают желтые мячи разными путями к сетке. Это игра, которую изобрели ее создатели, чтобы быстро улучшить ее координацию.

Но потом он перестает пытаться перехватить шары, хотя все равно дергается к ним. Он оглядывается и устремляется к блоку высотой 60 сантиметров в углу большой комнаты. В блоке есть шнур питания, подключенный к ближайшей розетке. Велоцираптор проходит над блоком, садится на него на корточки и затем закрывает глаза. Инженеры подметают разбросанные теннисные мячи и возвращают их в бункеры машин.

Через два часа он открывает глаза. Один из инженеров щелкает выключателем, и теннисные мячи снова начинают лететь. Велоцираптор снова прыгает в бой. На этот раз при повороте он становится заметно более плавным. Он останавливает больше мячей, чем раньше. И требуется немного больше времени, прежде чем потребуется перерыв для отдыха и перезарядки.

Это история эволюции пластикового динозавра, известного как PD, вымышленного робота-велоцираптора, который авторы Дэвид Клемент, директор Wavesine и соучредитель Senbionic, и Майкл Барнард используют для изучения аспектов машинного обучения. Прочтите первые статьи серии о механической и нейросетевой архитектуре робота. На данный момент достаточно сказать, что у него есть алюминиевый и пластиковый каркас, приводы с электрическим приводом, литий-ионная батарея, которая индуктивно заряжается от этого 60-сантиметрового блока, множество датчиков, умная тканевая обертка из кожи, которая больше датчиков и три гипотетических нейронных сетей, которые мы называем мозжечком, амигдаланетом и любопытной сетью. Первый - это вегетативная нервная система и нейронная сеть управления двигателем PD. Вторая - это нейронная сеть PD, принимающая решения, и «сражайся или беги». Третий - это «остальная часть мозга», которая хочет исследовать новые вещи и обладает большей частью способностей сопоставления с образцами вещей за пределами тела PD.

PD и его создатели играли в игру. Игра простая. ПД - вратарь. Цель - футбольная сетка. Мячи - это теннисные мячи, брошенные из машин для игры в теннис. PD награждается, когда он перехватывает мяч до того, как он попадает в сетку, и получает небольшое наказание, когда мяч попадает в сетку. Да, наказание динозавра ИИ пойдет хорошо.

Эта небольшая история - часть тренировочного процесса. Раньше они выполняли кучу виртуальных упражнений, чтобы заставить нейронные сети PD перехватывать виртуальные шары, но, как всегда, между симуляцией и реальностью существует разрыв. Они несколько раз повторяли моделирование и реальность, и в начале этой небольшой истории PD имеет правильную идею и перехватывает движущиеся теннисные мячи в «реальном» мире.

По мере того, как заряд батареи PD уменьшается, мозжечок обращает внимание. В какой-то момент он начинает посылать сигнал «Я голоден». Этот сигнал становится все громче и громче. В конце концов, он берет верх над любопытной сетью и вниманием амигдаланета к игре. Curiousnet оглядывается вокруг, пока не обнаруживает зарядный блок и не говорит: «Он там», но его все еще привлекают движущиеся шары. Он разрывается между конкурирующими импульсами. Амигдаланет решает, что пора «пойти туда», и говорит об этом. Cerebellumnet разворачивает PD и тащит его к блоку. Амигдаланет удерживает их от слишком быстрого бега и столкновения со стеной из-за импульса страха. Curiousnet видит, каким должно быть выравнивание, и продолжает посылать уточняющие сигналы, пока они не будут установлены на блоке. Затем мозжечок включает цикл зарядки и «сна».

Цикл сна в этой небольшой истории интересен. По идее, происходит то, что все опыты успеха и неудач, которые имел PD при остановке или не остановке мячей, и различные показания датчиков, когда он это делал, загружаются в его виртуальную среду. Виртуальные среды автоматически создают массивно параллельный набор симуляций и запускают симуляцию Монте-Карло, чтобы оптимизировать поведение PD для успешной остановки мячей. Конечно, легче сказать, чем сделать. Каждая из трех нейронных сетей немного приспосабливается к этому, учится делать это лучше, и полученные в результате итеративно обучаемые нейронные сети повторно реализуются в аппаратном обеспечении в теле робота PD.

Но происходит кое-что еще. Cerebellumnet, нейронная сеть, которая является вегетативной нервной системой и центром управления моторикой PD, имеет постоянную систему вознаграждения за меньшее потребление электроэнергии и меньшую нагрузку на суставы. Это приводит к более плавным движениям и эффективному достижению физических целей. Среди прочего, при отсутствии внешнего стимула PD имеет тенденцию к неподвижности, а не к движению. Это аналогично тому, как люди учатся любой физической активности. Мы становимся все лучше и лучше, тренируя собственные липкие нейронные сети и вегетативную нервную систему, чтобы они были эффективными. В результате все датчики, отслеживающие напряжение, инерцию и разряд батареи, также вводятся в обучающие модели. Как снится PD, процесс обучения немного подстраивает нейронные сети, чтобы быть более эффективными и плавными при определенных обстоятельствах. И поэтому, когда «сновидение» закончилось, мозжечковое оборудование PD делает робота более плавным и эффективным в его движениях.

Время для другого бокового пути. В чем разница между результатами и целями? Результатом машинного обучения является идентификация. Это достижимый результат. Существующие и почти современные образовательные усилия по машинному обучению позволяют определять породы собак и кошек с точностью 96%. Учитывая, что идентификация кошек и собак пять лет назад была статистически лучше, чем статическая, достижение точности 96% сегодня - это потрясающе.

Что изменилось и что это значит для пластикового динозавра?

Машинное обучение идентификации значительно улучшилось, поскольку ImageNet создал стандартизированный, в основном дифференцированный набор изображений для обучения нейронных сетей. Затем Три Amigos машинного обучения - те, кто недавно получил премию Тьюринга - выяснили, какие иерархии нужно создать в нейронной сети визуальной обработки, обученной с помощью ImageNet, чтобы получить общие функции, которые можно было бы применить к изображениям.

Таким образом, случайные капли на 10-12, в основном невидимых слоях, превращаются в края, углы и перья. Кроме того, вы можете добавить набор данных из 100 идентифицированных сложных объектов, таких как собаки и кошки, и добиться замечательной точности идентификации с помощью очень ограниченного нового набора данных. Поднятие тяжестей сделано. Открылись пригодные для использования ниши.

Но отождествление - это существительные, а не глаголы. Проблема онтологии состоит в том, что это все существительные без глаголов, как обнаружил Дэвид в своем глубоком погружении в космос, которое включало в себя дискуссии Министерства национальной обороны США об итеративном и инкрементальном создании определений онтологии «любой к любому». И машинное обучение в значительной степени разделяет это. С RetinaNet он отлично отождествляет существительные, но глаголы? Не так много. Даже ELMo, способный сформулировать все части речи и идиоматические нюансы, по своей сути не имеет действия.

Цели ориентированы на действия. Как алгоритм машинного обучения принимает решения, а не варианты? В этом разница между машинным обучением, ориентированным на модели, и, по крайней мере теоретически, машинным обучением без моделей, которое принимает решения и выбирает действия. Я чувствую появление квадрантной диаграммы, то есть упрощенной модели, которая претендует на то, что сложные градиенты можно объединить в четыре блока и, кроме того, четыре блока представляют собой совокупность результатов.

Квадрантная диаграмма идентифицируемых, неидентифицируемых, действенных и бездействующих элементов

Квадрантная диаграмма по автору

Да, просто возможность идентифицировать что-то - это здорово, но что нам делать с этим знанием? Какие цели мы выбираем?

В настоящее время цикл внимания включает в себя несколько вещей. Пространство внимания, где вещи продолжают меняться, но в некоторых измерениях они ограничены. Например, камеры летят над одними и теми же водами и приземляются по одним и тем же маршрутам. Набор датчиков, регистрирующих пространство внимания, возможно, набор GoPros, iPhone или спутников. Эксперт или намеренный агент-человек, который хочет получить результаты от внимания, уделяемого пространству внимания, то есть кто-то, кто обращает внимание. Нейронная сеть машинного обучения, которая обучается обращать внимание на пространство внимания. Особенности в пространстве внимания с учетом доступных датчиков, которые нейронная сеть может идентифицировать. Эксперт или группа более сложных нейронных сетей, которые могут идентифицировать особенности при ограниченном обучении - люди - которые могут указывать на особенности, которые нейронная сеть не может идентифицировать. Процесс обратной связи, чтобы постоянно указывать нейронной сети на основные особенности.

Представьте себе бревно, плавающее в воде. Он сбежал из бревенчатой стрелы, плывущей по большой реке. Это имеет значение. Людей это волнует. Видеокамера на поплавковом самолете, летящем над реками и бухтами акватории, делает много снимков. Нейронная сеть обучается распознавать, что вещи, которые она видит, являются ценными предметами, то есть журналами. Он их идентифицирует. Но это существительное, а не глагол. Откуда появился глагол или действие?

Это петля внимания. Пространство внимания. Люди, которым не все равно. Функции. Нейронная сеть, которая обучается обращать внимание. Тренеры. Но практически нет понимания действий. Еще.

Как ясно говорилось в статье об архитектуре, робот не может учиться самостоятельно. Все, что может делать ее нейронная сеть, - это принимать входные данные и выкрикивать инструкции. При точно таких же условиях ввода будет происходить точно такой же вывод инструкций, как и в случае с автономными системами Tesla на своих автомобилях. Цикл «сновидения» происходит за пределами работающего оборудования нейронной сети робота, а затем результаты загружаются. Он меняет поведение только после того, как «мечтает».

Есть еще один аспект, на который стоит обратить внимание, - это внимание, которое нейронные сети уделяют различным функциям. Внимание и особенности - это очень специфические слова, которые используют авторы, и мы стараемся быть точными в их использовании. Как подробно изложено в статье об архитектуре, в теле PD и его окружении постоянно происходит много всего. Он имеет постоянные потоки данных датчиков изнутри и снаружи своего тела, из которых он идентифицирует особенности. Cerebellumnet обращает внимание на большую часть внутреннего тела с помощью внутренних датчиков, определяя особенности, которые являются заметными в любой момент. Curiousnet обращает внимание на большинство вещей вне тела. Амигдаланет обращает пристальное внимание на все, что любопытная сеть не может идентифицировать, что может быть риском или может идентифицироваться как угроза, и является посредником между очень внешне ориентированной сетью любопытных и внутренне ориентированным мозжечком. У каждой нейронной сети разные сферы внимания.

Одна из вещей, на которую мозжечок уделяет много внимания, - это заряд батареи. Cerebellumnet был создан первым и сильно вознагражден за то, что он никогда не разряжался и не становился слишком низким. Он научился уделять много внимания этому датчику и уделяет меньше внимания большинству других датчиков, даже если они такие же «громкие».

Это фундаментальный аспект нейронной сети, которая содержит зашумленный набор данных, из которых она учится, чтобы считать релевантными для получаемых результатов. Обращаю внимание.

Другой аспект внимания возвращается к неспособности нейронных сетей учиться без «сновидений». У людей тоже есть нейронные сети, липкие в нашем черепе. Но мы можем изучать вещи без «сновидений», хотя человеческие сновидения действительно помогают нашим нейронным сетям делать что-то в том же диапазоне. Данные нейробиологии, например исследование Sleep, Learning and Dreams: Off-line Memory Reprocessing, проведенное Stickgold et al., Предполагает, что, хотя мы формируем новые нейронные связи во время бодрствования, сновидения включают в себя повторную обработку некоторых воспоминаний и определение приоритетов некоторых связей в наших нейронных сетях. унижая других. Это часть нашего цикла обучения и, как и все биологическое, чрезвычайно беспорядочное.

Сновидения усиливают некоторые аспекты наших нейронных сетей, ярко запоминая их, и уменьшают другие, игнорируя их. Одни только сны могут гипотетически усилить симптомы и последствия посттравматического стрессового расстройства. В то время как исследования на людях ограничены понятными этическими соображениями, исследования на крысах предполагают, что это действительно так. Представьте себе велоцираптора с искусственным интеллектом с индуцированным посттравматическим стрессовым расстройством или просто появившимся посттравматическим стрессовым расстройством, которого никто не замечает.

Пытаясь концептуализировать робота с машинным обучением, мы извлекаем уроки из опыта биомимикрии за последние пару десятилетий. Одним из интересных событий Майкла стало продолжительное общение со знаменитым биомиметиком Джоном Дабири. Он лауреат премии MacArthur Genius Grant, который проделал увлекательные вещи, изучая передвижения животных, особенно морских, и получая идеи о том, как улучшить механическое движение. Майкл подверг критике попытку Дабири улучшить ветроэнергетику - Мнение: Являются ли турбинные системы «косяка рыб» отвлекающим маневром? - и Дабири протянул руку, чтобы аргументировать свою позицию.

Это был увлекательный разговор, но важный вывод для мыслительной модели PD заключался в том, что биомимикрия не пытается точно воспроизвести то, как работают биологические системы, а пытается найти более простые способы достижения тех же целей на основе задействованной физики. Это одна из причин, почему датчики PD просто кричат по Bluetooth, а нейронные сети учатся обращать внимание на то, что имеет значение. И поэтому мы не пытаемся воссоздать, как люди учатся в наших беспорядочных, органических и перекрывающихся циклах бодрствования и сновидений, а более четко разделяем их на циклы действий и циклы обучения. Вот почему мы сворачиваем, по крайней мере концептуально, вегетативную нервную систему и мозжечок в единую нейронную сеть.

И, конечно же, все это модель мышления, используемая для изучения аспектов машинного обучения с дополнительной помощью робототехники, так что относитесь ко всему этому с долей скептицизма, за исключением концепций машинного обучения.

Конечно, здесь возникает больше вопросов. Как мы награждаем нейронную сеть за положительные результаты и «наказываем» за отрицательные? Что, если обучение идет плохо и нейронная сеть учится обращать внимание на неправильные вещи? Что, если требуемые черты выживания не получают должного вознаграждения, и нейронная сеть не размещает их по сравнению с другими вещами, которые, по ее мнению, важны? Что делать, если приобретенные способности не используются; они деградируют и исчезают или прекрасно сохраняются в янтаре? Это вопросы для следующих статей из этой серии.

В четвертой статье этой серии будет рассказано о том, как нейронные сети развивают часто непознаваемые и упрощенные способы идентификации вещей с помощью функций, на которые они обращают внимание, с потенциально неоднозначными результатами. В нем Пластиковый динозавр становится предвзятым, конечно, в забавной форме.