Новый метод помогает системам компьютерного зрения расшифровывать сцены на открытом воздухе

Системам компьютерного зрения сложно понять одно изображение, но новый метод, разработанный учеными-компьютерщиками из Университета Карнеги-Меллона, позволяет компьютерам глубже понять изображение, рассуждая о физических ограничениях сцены.

Во многом так же, как ребенок может использовать набор игрушечных строительных блоков, чтобы собрать что-то, похожее на здание, изображенное на обложке игрушечного набора, компьютер будет анализировать сцену на открытом воздухе, используя виртуальные блоки для построить трехмерное приближение изображения, которое имеет смысл на основе объема и массы.

«Когда люди смотрят на фотографию, они понимают, что сцена ограничена геометрически», - сказал Абхинав Гупта, научный сотрудник Института робототехники CMU. «Мы знаем, что здания не бесконечно тонкие, что большинство башен не наклоняются и что тяжелые объекты нуждаются в поддержке. Может быть невозможно узнать трехмерный размер и форму всех объектов на фотографии, но мы можем сузить возможности. Точно так же, если компьютер может воспроизвести изображение блок за блоком, он сможет лучше понять сцену».

Этот новый подход к автоматизированному анализу сцены может в конечном итоге использоваться для понимания не только объектов в сцене, но и пространств между ними, а также того, что может скрываться за областями, скрытыми объектами на переднем плане, сказал Алексей А. Эфрос., доцент кафедры робототехники и информатики КМУ. Он отметил, что такой уровень детализации был бы важен, например, если бы роботу нужно было спланировать маршрут, по которому он мог бы пройти.

Гупта представил исследование, которое он провел вместе с профессором Эфроса и робототехники Марсьялем Хебертом, на Европейской конференции по компьютерному зрению, которая проходила с 5 по 11 сентября на Крите, Греция.

Понимание уличных сцен остается одной из самых больших проблем искусственного интеллекта. Один подход заключался в определении особенностей сцены, таких как здания, дороги и автомобили, но это не дает понимания геометрии сцены, например, расположения поверхностей, по которым можно ходить. Другой подход, впервые предложенный Хебертом и Эфросом вместе с бывшим студентом Дереком Хойемом, ныне работающим в Университете Иллинойса в Урбана-Шампейн, заключался в картографировании плоских поверхностей изображения для создания грубого трехмерного изображения изображения, похожего на всплывающая книга. Но такой подход может привести к очень маловероятным, а иногда и физически невозможным изображениям.

В новом методе, разработанном Гуптой, Эфросом и Хебертом, изображение сначала разбивается на различные сегменты, соответствующие объектам на изображении. Как только земля и небо идентифицированы, другим сегментам назначаются потенциальные геометрические формы. Формы также подразделяются на легкие или тяжелые, в зависимости от внешнего вида; например, поверхность, которая выглядит как кирпичная стена, будет классифицироваться как тяжелая.

Затем компьютер пытается восстановить изображение, используя виртуальные блоки. Если тяжелый блок кажется неподдерживаемым, компьютер должен заменить блок соответствующей формы или сделать предположение, что исходный блок был скрыт в исходном изображении.

Гупта сказал, что, поскольку этот качественный объемный подход к пониманию сцены настолько нов, для него не существует установленных наборов данных или методологий оценки. Он сказал, что при оценке расположения поверхностей, кроме неба и земли, точность метода составляет более 70 процентов, и его производительность почти так же хороша при сравнении его сегментации с наземной истиной. В целом Гупта оценивает анализ как очень хороший для 30-40 процентов изображений и удовлетворительный для еще 20-30 процентов.