Косоглазый метод анализа данных

Косоглазый метод анализа данных
Косоглазый метод анализа данных

Математики обнаружили бутылку Клейна, спрятанную в данных, лежащих в основе фотографий

Данные имеют форму. Но чтобы это увидеть, нужно прищуриться.

Image
Image
Изображение
Изображение

Возьмите любой пример: статистика здоровья диабетиков, последовательность генов, составляющих ваш геном, рост и падение финансовых рынков. Превратите эти данные в многомерную картину, нанеся точки данных, которые близки друг к другу, а точки данных, которые сильно различаются, находятся далеко друг от друга.

А теперь прищурьтесь. Какую форму формируют данные? Эта форма может рассказать вам о том, что означают данные. Врачи, впервые проанализировав данные о диабетиках, обнаружили, например, большую группу относительно здоровых людей вместе с двумя вспышками более больных людей. Эта структура помогла им понять, что диабет бывает двух разных форм.

Математики теперь обнаружили гораздо более сложную форму, «прищурившись» на данные, из которых состоят цифровые фотографии. Спрятанная внутри, они обнаружили бутылку Клейна, странную математическую поверхность без краев, ни внутри, ни снаружи. И их открытие может пролить свет на то, как мозг воспринимает изображения.

Чтобы применить «метод косоглазия» к фотографическим данным, Гуннару Карлссону из Стэнфордского университета и его коллегам пришлось преодолеть два основных препятствия. Во-первых, поскольку каждый пиксель отображается в своем собственном измерении, вам потребуются сотни или даже тысячи их. Удачи вам «видеть» в тысяче измерений!

Следующая задача состоит в том, чтобы формализовать, что значит прищуриваться. Визуально прищуривание позволяет нам смазать точки вместе, заполняя пробелы, чтобы увидеть цельную форму. Но математически не очевидно, как это лучше сделать.

К счастью, в одной из самых абстрактных областей математики есть точные инструменты для работы. На самом деле область топологии можно было бы назвать математикой многомерного косоглазия.

Топологи изучают геометрические фигуры так же, как это делают геометры. Но геометр считает, что два математических объекта одинаковы только в том случае, если вы можете взять один и положить его поверх другого, две формы точно выровняются, без изгибов, растяжений или каких-либо обезьяньих действий. Это не очень полезно для изучения данных, которые изначально имеют тенденцию быть зашумленными и неточными.

Топологи, с другой стороны, совершенно счастливы, позволяя объектам растягиваться или сжиматься, если вы не проделываете никаких отверстий или ничего не склеиваете. Так что для тополога пончик и кофейная чашка с ручкой имеют одинаковую форму. Чашечную часть можно сжать, оставив только ручку, чтобы получилась петля - такая же общая форма, как у пончика.

«Топология - менее чувствительный и более качественный способ смотреть на вещи, чем геометрия, - говорит Карлссон. И это размытое видение идеально подходит для аналитиков данных, которые ищут смысл в беспорядке данных.

Кроме того, топологи создали теоретические инструменты для распознавания этих грубых форм очень многомерных объектов. Карлссон и его коллеги превратили эти теоретические инструменты в инструменты компьютерного анализа данных.

Для анализа фотографических данных он сначала максимально упростил задачу, сосредоточившись на крошечных областях цифрового изображения размером три пикселя на три пикселя. Он отложил значение оттенков серого для каждого пикселя на отдельной оси. Поскольку каждый патч имел в общей сложности девять пикселей, это означало, что ему нужно было девятимерное пространство. Это невозможно увидеть, но несложно произвести расчеты.

Теоретически патч может иметь любую комбинацию оттенков в каждом из этих девяти пикселей, но Карлссон обнаружил, что большинство комбинаций встречаются редко. Это неудивительно, потому что если вы случайным образом назначите оттенок каждому пикселю, результат обычно будет выглядеть как шум, а не как часть значимого объекта. Так что это не часто встречается на фотографии.

Это означает, что нанесенные им точки заполнили лишь часть полного девятимерного пространства. Карлссон хотел знать, создают ли эти нанесенные точки форму - в узком, топологическом смысле.

И действительно, он подсчитал, что они образуют замечательную форму бутылки Клейна.

Это открытие может проложить путь к более продвинутым методам сжатия фотографических данных, говорит Карлссон. Более того, клетки первичной зрительной коры головного мозга настроены так, чтобы улавливать те участки, которые наиболее важны в структуре бутылки Клейна, что позволяет предположить, что сам мозг может использовать аналогичный «алгоритм сжатия» для быстрого извлечения информации из того, что ему нужно. видит.