Исследование показывает, как ИИ видит сквозь зеркало

По ту сторону зеркала все по-другому.

Текст перевернут. Часы идут против часовой стрелки. Машины едут не по той стороне дороги. Правые руки становятся левыми.

Заинтригованная тем, как отражение меняет изображения тонкими и не очень тонкими способами, группа исследователей из Корнельского университета использовала искусственный интеллект, чтобы выяснить, что отличает оригиналы от их отражений. Их алгоритмы научились улавливать неожиданные подсказки, такие как части волос, направление взгляда и, что удивительно, бороды - результаты, имеющие значение для обучения моделей машинного обучения и обнаружения поддельных изображений.

«Вселенная несимметрична. Если вы перевернете изображение, вы увидите различия», - сказал Ноа Снейвли, доцент компьютерных наук в Технологическом институте Корнелла и старший автор исследования «Визуальная хиральность», представленного на Конференция 2020 года по компьютерному зрению и распознаванию образов, которая пройдет виртуально с 14 по 19 июня. «Меня заинтриговали открытия, которые вы можете сделать, используя новые способы сбора информации».

Zhiqui Lin - первый автор статьи; соавторами являются Эйб Дэвис, доцент компьютерных наук, и постдокторант Корнеллского технологического института Джин Сун.

Различие между исходными изображениями и отражениями - удивительно простая задача для ИИ, сказал Снейвли - базовый алгоритм глубокого обучения может быстро научиться классифицировать, было ли изображение перевернуто с точностью от 60% до 90%, в зависимости от виды изображений, используемых для обучения алгоритма. Многие из подсказок, которые он улавливает, людям трудно заметить.

Для этого исследования команда разработала технологию создания тепловой карты, которая указывает части изображения, представляющие интерес для алгоритма, чтобы получить представление о том, как он принимает эти решения.

Они обнаружили, что неудивительно, что наиболее часто используемой подсказкой был текст, который выглядит по-разному в разных письменных языках. Чтобы узнать больше, они удалили изображения с текстом из своего набора данных и обнаружили, что следующий набор характеристик, на которых сосредоточилась модель, включает наручные часы, воротник рубашки (пуговицы, как правило, слева), лица и телефоны - то, что большинство людей склонны носить в правых руках - а также другие факторы, выявляющие праворукость.

Исследователи были заинтригованы тенденцией алгоритма фокусироваться на лицах, которые не кажутся явно асимметричными. «В некотором смысле это оставило больше вопросов, чем ответов», - сказал Снейвли.

Затем они провели еще одно исследование, сосредоточив внимание на лицах, и обнаружили, что тепловая карта загорается на участках, включая часть волос, взгляд - большинство людей по неизвестным исследователям причинам смотрят влево на портретных фотографиях - и бороды.

Снейвли сказал, что он и члены его команды понятия не имеют, какую информацию алгоритм находит в бороде, но они предположили, что то, как люди расчесывают или бреют лицо, может выявить наличие рук.

"Это форма визуального открытия", - сказал Снейвли. «Если вы сможете масштабировать машинное обучение на миллионах и миллионах изображений, возможно, вы сможете начать открывать новые факты о мире».

Каждая из этих подсказок по отдельности может быть ненадежной, но алгоритм может повысить достоверность, комбинируя несколько подсказок, как показали результаты. Исследователи также обнаружили, что для принятия решений алгоритм использует сигналы низкого уровня, возникающие из-за того, как камеры обрабатывают изображения.

Хотя необходимы дополнительные исследования, полученные результаты могут повлиять на то, как обучаются модели машинного обучения. Этим моделям требуется огромное количество изображений, чтобы научиться классифицировать и идентифицировать изображения, поэтому ученые-компьютерщики часто используют отражения существующих изображений, чтобы эффективно удвоить свои наборы данных.

Изучение того, чем эти отраженные изображения отличаются от оригиналов, может дать информацию о возможных предубеждениях в машинном обучении, которые могут привести к неточным результатам, сказал Снейвли.

"Это приводит к открытому вопросу для сообщества специалистов по компьютерному зрению, а именно: когда можно делать это переворачивание, чтобы увеличить набор данных, а когда нельзя?" он сказал. «Я надеюсь, что это заставит людей задуматься над этими вопросами и начать разрабатывать инструменты, чтобы понять, как это влияет на алгоритм».

Понимание того, как отражение меняет изображение, также может помочь использовать ИИ для идентификации изображений, которые были подделаны или сфальсифицированы - проблема, вызывающая растущую обеспокоенность в Интернете.

«Возможно, это новый инструмент или понимание, которое можно использовать во вселенной криминалистики изображений, если вы хотите сказать, реально что-то или нет», - сказал Снейвли.

Исследование было частично поддержано филантропами Эриком Шмидтом, бывшим генеральным директором Google, и Венди Шмидт.