Забудьте о линкбилдинге: пора использовать хранилище знаний Google

Автор: Селезнев Владимир [email protected].

Публикация: 2025-03-05 07:29.

Последние изменения: 2025-03-05 07:29

SEO-специалисты и маркетологи, вам лучше держаться за клавиатуру, потому что Google, возможно, собирается коренным образом изменить структуру своей поисковой системы при индексации веб-страниц. Если команда исследователей Google добьется своего, профилирование ссылок может уйти в прошлое, и его заменит централизованный, управляемый Google, прото-искусственный интеллектуальный алгоритм, который подключается к обширному (и растущему) Хранилищу знаний компании для ранжирования веб-сайтов на основе в первую очередь на релевантности и фактической информации, а не на количестве и качестве входящих ссылок.

Разве цифровой маркетинг - это не весело?

Этот шаг явно представляет собой сейсмический сдвиг в способе индексации информации в крупнейшей в мире поисковой системе, которая, согласно собственным данным Google, в настоящее время сканирует и индексирует более 60 триллионов отдельных веб-страниц, чтобы «предоставить наилучшие результаты возможны» за более чем 100 миллиардов поисковых запросов пользователей в месяц.

До сих пор казалось, что Google работает так, как будто считает, что данные обратных ссылок по-прежнему являются наиболее жизнеспособным способом обеспечения качественных результатов поиска. Ссылки по-прежнему являются важной частью алгоритма ранжирования, хотя недавние изменения алгоритма - в первую очередь обновление Google Hummingbird 2013 года, которое включает семантическое понимание и контекстуальную релевантность (таким образом, акцент на качественном контенте) как средства определения результатов поиска (и, соответственно, ранжирования).) - позволили Google начать переход от таких внешних (экзогенных) сигналов, как структура гиперссылок, к внутренним (эндогенным) сигналам, таким как содержание веб-страницы.

Проще говоря, быстро развивающаяся поисковая система Google с искусственным интеллектом дает компании возможность заменить традиционную структуру гиперссылок фактической точностью в качестве основного средства определения надежности веб-сайта/веб-страницы и, как следствие, релевантности.

Я еще не решил, хорошо это или плохо.

От связи к мышлению

Несмотря на то, что все быстро меняется, алгоритм поисковой системы Google сегодня по-прежнему в значительной степени зависит от количества входящих ссылок на веб-страницу в сочетании с качеством ссылок (ссылка с веб-сайта с более высоким авторитетом, такого как NY Times будет считаться более качественным, чем ссылка с нового веб-сайта) для определения рейтинга страницы в поисковой выдаче (странице результатов поисковой системы).

Со временем этот тип классификации на основе ссылок породил далеко не идеальную систему, которая иногда награждает популярные веб-сайты с высокой посещаемостью, которые содержат дезинформацию, более высокими рейтингами страниц, чем они объективно заслуживают. При этом он создал своего рода самовоспроизводящийся цикл, который постоянно подпитывается сам по себе, порождая де-факто менталитет «если вы свяжетесь с ним, они придут». Другими словами, как и многие выборы в студенческий совет средней школы, ранжирование поисковой системы Google часто больше отражает борьбу за популярность, чем систему, основанную на заслугах.

Чтобы бороться с этим, исследовательская группа Google использует достижения в области машинного обучения для создания новой системы классификации, которая будет измерять объективную фактическую точность веб-страницы, а не ее субъективную репутацию в Интернете. Вместо того, чтобы отслеживать количество входящих ссылок на страницу, система, основанная на знаниях, будет подсчитывать количество неверных фактов на странице и использовать результаты для присвоения оценки, которую исследователи Google называют оценкой доверия, основанной на знаниях.

Хранилище знаний Google

Для правильной работы этой новой системе необходим свободный и простой доступ к большому объему фактической информации. Войдите в Хранилище Знаний, массивное, прямо оруэлловское хранилище данных, которые Google собирал от таких людей, как вы и я, через свою поисковую систему вот уже много лет. Согласно Википедии, по состоянию на 2014 год Хранилище знаний содержало 1,6 миллиарда фактов, которые были автоматически сопоставлены со всех уголков Интернета.

В то время как его предшественник, График знаний, ограничивался извлечением информации из надежных краудсорсинговых сайтов, таких как Freebase и Wikipedia, Хранилище знаний Google может получить доступ к практически безграничному океану необработанных данных, которыми является Интернет, а затем применить расширенные методы машинного обучения для оценки достоверности и актуальности информации.

Концепция Хранилища знаний была представлена в недавней статье с привлекающим внимание названием «Хранилище знаний: веб-подход к вероятностному объединению знаний». Его авторами стали Синь Луна Донг, Евгений Габрилович, Джереми Хейтц, Вилко Хорн, Ни Лао, Кевин Мерфи, Томас Строманн, Шаохуа Сунь и Вэй Чжан - все члены исследовательской группы Google.

На первых страницах статьи авторы предлагают следующее в качестве обоснования Хранилища Знаний:

Качество веб-источников традиционно оценивалось с использованием экзогенных сигналов, таких как структура гиперссылок графа. Мы предлагаем новый подход, который опирается на эндогенные сигналы, а именно на достоверность фактической информации, предоставленной источником. Источник, в котором содержится мало ложных фактов, считается заслуживающим доверия… Мы также заметили, что рост Википедии по существу остановился, поэтому добровольный вклад добровольцев может дать ограниченный объем знаний в будущем. Поэтому мы считаем, что для дальнейшего расширения построения базы знаний необходим новый подход. Такой подход должен автоматически извлекать факты из всей сети, дополняя знания, которые мы собираем из источников информации и структурированных данных».

Добро пожаловать в хранилище знаний.

Далее в статье исследовательская группа Google проливает свет на огромные размеры и масштабы хранилища знаний (KV), а также на процесс, используемый для определения фактической точности информации:

"KV намного больше, чем другие сопоставимые базы знаний (базы знаний)… В частности, KV имеет 1,6 млрд троек, из которых 324 млн имеют достоверность 0,7 или выше, а 271 млн имеют достоверность 0,9 или выше. примерно в 38 раз больше, чем у крупнейшей предыдущей сопоставимой системы…"

{Небольшая заметка о "тройках". Чтобы определить фактическую точность, Хранилище знаний Google ищет информацию, которая попадает в шаблон того, что он называет тройками. Тройки состоят из трех факторов: субъекта, являющегося сущностью реального мира, предиката, описывающего некоторый атрибут этой сущности, и объекта, являющегося значением атрибута. Примером тройки может быть то, что президент Обама (субъект) является президентом (сказуемое) Соединенных Штатов (объект). Удивительно, но Хранилище Знаний содержит более миллиарда троек со всего Интернета. В рамках процесса сбора информации алгоритм Google, основанный на знаниях, используется для определения того, являются ли конкретные факты правдивыми и поддающимися проверке.}

Справедливости ради, предлагаемые изменения не должны стать неожиданностью для маркетологов, которые обратили на них внимание; Ребята из Google сообщали об этом потенциальном шаге в течение нескольких месяцев и даже лет с многочисленными обновлениями поискового алгоритма, которые постепенно акцентировали внимание на эндогенных сигналах, таких как качественный контент веб-страницы, а не на экзогенных сигналах, таких как построение ссылок. Они говорили нам, что пока мы производим качественный контент, который обеспечивает актуальность и ценность для нашей аудитории, все остальное приложится само собой.

На самом деле, если задуматься, сама фраза «качественный контент» подразумевает фактическое содержание и, таким образом, обеспечивает аккуратный семантический мост к алгоритму доверия, основанного на знаниях.

И снова похоже, что Google на несколько шагов впереди остальных…

Переосмысление поиска в том виде, в каком мы его знаем

Как бы ни вдохновляла перспектива всезнающего, управляемого Google интернет-киберполицейского гипер-блестящая (и гипер-занудная) исследовательская группа Google, я думаю, что поисковому гиганту было бы мудро действовать очень осторожно. любая фундаментальная перенастройка алгоритма поиска в пользу эндогенных (то есть контролируемых Google) сигналов вместо экзогенных (краудсорсинговых). Это особенно верно, учитывая продолжающееся пристальное внимание европейских регулирующих органов к монопольной поисковой практике Google и ее критику со стороны инсайдеров отрасли (доказательства последнего можно найти в публикации недавней научной статьи, в которой говорится, что поисковый гигант якобы ухудшает качество результатов поиска). в пользу собственных свойств).

Несмотря на то, что построение экзогенных ссылок ошибочно и не всегда может вознаградить наиболее фактически точные сайты с более высоким рейтингом в поиске, в целом экзогенные сигналы, такие как внешние гиперссылки, используют полуорганический, децентрализованный и краудсорсинговый процесс принятия решений для определить релевантность веб-сайта; при этом они отражают несовершенную, но в конечном счете руководимую людьми коллективную волю.

Эндогенные сигналы, основанные на фактах, напротив, черпаются из централизованной базы знаний, которая, хотя изначально получена от людей, анализируется, интерпретируется и, в конечном счете, направляется централизованным искусственным интеллектом, принадлежащим единому субъекту, в в этом случае Гугл. На мой взгляд, все это слишком похоже на бейсбол.

По своей сути споры об экзогенных и эндогенных поисковых сигналах поднимают некоторые философские вопросы, которые выходят далеко за рамки SEO. Он просит нас решить, предпочитаем ли мы определять достоверность с помощью холодных неопровержимых фактов или человеческой интуиции (т.е. доверять); должны ли мы верить в децентрализованный процесс или в централизованную систему; следует ли нам доверять объективности машины или субъективности человеческого принятия решений.

В конце концов, споров может и не быть; если исследователи Google добьются своего, эндогенный поиск вскоре будет навязан нам, нравится нам это или нет. Когда этот день наступит, маркетологам лучше забыть о построении ссылок и полностью использовать Google Knowledge Vault.

Follow @chrshorton