Связь с сетью и червем
Всемирная паутина уже давно не растет и не процветает - она разрастается. Так что удивительно, учитывая постоянное, почти неконтролируемое и нерегулируемое вхождение новых веб-сайтов в общую сеть, что вышестоящие структуры тем не менее остаются узнаваемыми - и даже самоорганизуются. Исследователи теперь говорят, что с небольшим количеством арифметики эти неписаные организационные законы можно даже использовать для выводов о содержании страниц - без предварительного тщательного изучения их по отдельности. Примером самоорганизующихся структур более высокого уровня в сети являются сообщества - тематически разграниченные, разнонаправленные веб-области, страницы которых посвящены различным аспектам общей темы. В основе организации этих сообществ нет всеобъемлющего плана. Скорее, эти тематические подсети формируются в значительной степени независимо, потому что их участники чаще ссылаются на страницы соучастников, чем на внешние страницы с другим содержанием: в результате сеть независимо консолидируется локально.
Образно говоря, такие ссылки, которые местами формируются неравномерно, создают во всей сети паттерн высшего уровня - паттерн с информационным наполнением, даже «метаинформацией», превосходящий информацию на отдельных сайтах, скажем Жан- Пьер Экманн из Женевского университета и Элиша Мозес из Израильского института науки Вейцмана. Ученые уверены: эту информацию можно с пользой использовать, чтобы делать выводы о содержании хранящихся в ней страниц из структуры сети.
Чтобы доказать свою теорию, исследователи сначала разработали математическое определение связывающей информации. Они определили «взаимно связанные» веб-сайты как ядро тематически связанных веб-регионов. На таких сайтах по крайней мере одна ссылка ведет на другой независимый сайт, а эта веб-страница, в свою очередь, также ведет на исходный сайт: так называемая совместная ссылка. Если три таких взаимосвязанных веб-страницы образуют треугольник, или даже несколько таких треугольников образуют сеть вышестоящего уровня, то, по мнению ученых, это свидетельствует о взаимном признании операторов сайта, а значит, с возрастающей вероятностью, и о тематических связях между содержанием страниц..
Геометрические величины могут быть рассчитаны из набора таких связанных треугольников в определенных, пространственно ограниченных областях сети. Используя эти данные, математически говоря, локальные кривизны представления сети, можно, например, создать трехмерную графическую веб-карту: на холмах отчетливо видны тематически однородные области с множеством треугольников совпадающих связей..
Все теории серые, поэтому исследователи подвергли свою собственную реальной проверке на стресс. С помощью веб-роботов, небольших поисковых программ, подобных тем, которые используются поисковыми системами в Интернете, они определяли сетевые данные различных сообществ и представляли их графически, используя свой метод..
И действительно: тематически однородные наборы страниц четко выделяются на рассчитанных веб-картах. Очень сильно сетевые сообщества даже напоминали, образно говоря, замкнутые сферические формы - в качестве примера исследователи показали сайты, посвященные музыке танго. Пограничные области между отдельными группами интересов, с другой стороны, можно распознать как резкие разделительные линии между тесно связанными областями. Обычно существует лишь несколько случайных ссылок между отдельными регионами: например, ссылка через сайт страстного любителя танго Астора Пьяцоллы, который в то же время интересуется аргентинским футболом, и ссылки на соответствующие группы.
Исследователи недавно отважились выйти за рамки компьютерных наук и протестировали свою модель на совершенно разных сложных сетях - каждый раз успешно. Независимо от того, является ли это сетью биохимических взаимодействий всех белков дрожжевой клетки, базой данных взаимных цитат коллег в публикациях математиков или нейронной сетью червя Caenorhabditis elegans, геометрические холмы сетевой карты всегда соотносятся с тематическим единообразием строительных блоков сети.
Представление сетевой метаинформации в геометрической форме, заключают Экманн и Мозес, может оказаться полезным в самых разных научных областях, даже если практическое применение результатов исследования, возможно, изначально возможно в Интернете. Метод выделяется, например, из стратегии популярной поисковой системы Интернета Google, которая в конечном итоге определяет релевантность отдельных веб-сайтов на основе частоты полученных ссылок. Оценка со-ссылок приводит к совершенно другим значениям: вместо общей осведомленности или «авторитета» взвешивается важность страницы для связанных с темой «со-экспертов».