От строк к вещам: краткое руководство по семантическому поиску

Автор: Селезнев Владимир [email protected].

Публикация: 2025-03-05 07:29.

Последние изменения: 2025-03-05 07:29

В мае 2012 года Google выпустила свой Knowledge Graph, семантическую поисковую систему, похожую на ИИ, которая навсегда изменит парадигму поиска, сосредоточившись на «вещах, а не на строках». Эти три простых слова ознаменовали глубокую эволюцию поиска: от статической системы, которая понимала поисковые запросы как группы «строк» ключевых слов, к более динамичной системе, основанной на контексте, которая могла распознавать и понимать ссылки на реальные «вещи», т. е. идеи. или сущности.

Словарь определяет термин «сущность» как «вещь с отчетливым и независимым существованием». Это напоминает мне известное изречение философа и математика XVI века Рене Декарта Cogito Ergo Sum: «Я мыслю, следовательно, существую» или «Я мыслю, следовательно, существую». Простая, но глубокая фраза Cogito Ergo Sum отражает отличительную черту, возвышающую человеческую эволюцию за пределы простого животного инстинкта к самосознанию более высокого порядка: способность понимать, что мы действительно существуем. Это фундаментальное понятие проложило нам путь к рационализации и контекстуализировать, чтобы мысленно классифицировать различные объекты и идеи, с которыми мы сталкиваемся в нашей повседневной жизни, и придавать им значение.

Умная поисковая система

С помощью Knowledge Graph Google стремился создать аналогичный искусственный интеллект (ИИ) более высокого порядка, чтобы наделить свою поисковую систему по существу человеческой способностью мыслить семантически или извлекать контекстное значение из разных слов и символов.. Google продемонстрировал свои способности в области искусственного интеллекта в 2012 году, когда секретная лаборатория Project X Lab смогла «научить» искусственную нейронную сеть из 16 000 взаимосвязанных процессоров распознавать «кошку», просто просматривая 10 миллионов случайных миниатюр на YouTube в течение трех дней (не рекомендуется в домашних условиях). Алгоритмы глубокого обучения, такие как тот, который лежит в основе эксперимента Google с кошками, служат технологической основой Knowledge Graph и других семантических поисковых систем.

Это и другие подобные достижения знаменуют собой драматический сдвиг парадигмы в поиске, который быстро переворачивает общепринятые правила поисковой оптимизации. Благодаря возможностям более быстрой обработки и достижениям в области машинного обучения поиск наконец-то уходит от статических строк ключевых слов, которые полагались на график ссылок и упоминания ключевых слов для определения релевантности и ранжирования контента, к дивный новый мир семантического понимания и выше -заказать распознавание сущностей, что позволяет поисковой системе распознавать намерения пользователя, чтобы понять, почему пользователь что-то спрашивает. Отсюда совсем недалеко до упреждающего поиска - как только поисковая система сможет постоянно распознавать (и в какой-то степени понимать), почему вы что-то спрашиваете, она может начать предугадывать, что вы спросите дальше.

Проще говоря, поисковые системы начинают думать как люди.

Прощай, Ключевые слова

Сегодняшняя эволюционирующая среда поиска обращает внимание на ключевые слова. В недавнем посте для Search Engine Land Пол Брюммер из PB Communications взял интервью у Барбары Старр, семантического стратега, серьезно занимавшегося семантическим поиском (она работала над проектом HPKB, исследовательской программой DARPA, направленной на совершенствование технологии того, как компьютеры приобретают, представляют и манипулировать знаниями). Когда Пол спросил Барбару, почему, по ее мнению, мы так долго использовали ключевые слова в поиске, она ответила (частично): «…запросы, состоящие только из ключевых слов, в конечном итоге практически исчезнут. Они существовали, потому что было сложно набирать весь запрос. полностью, и не было эффективных технологий распознавания голоса, сенсорных экранов и т. д. Однако на данный момент поисковые системы предпочитают полные предложения или осмысленные фразы, поскольку они дают больше контекста и информации о намерениях пользователя в запросе…"

В интервью Старр также указал, как закон Мура вписывается в это уравнение: как ключевые слова были полезным обходным путем в эпоху ограниченных вычислительных мощностей, но экспоненциально более высокие скорости обработки и объемы хранения теперь позволяют нам более сложный подход к поиску. Например, теперь пользователь может легко выполнить голосовой поисковый запрос, который подключается к его или ее истории поиска и текущему географическому местоположению, чтобы предоставить результаты поиска с высокой степенью контекстуализации.

Как важно быть сущностью

Чтобы семантический поиск был эффективным, он зависит от отбора и организации огромных объемов данных, и именно здесь вписывается График знаний Google. Уже сопоставив более 20 миллиардов фактов о взаимосвязях между различными объектами, Knowledge Graph Graph продолжает собирать больше семантических данных в своем непрекращающемся стремлении думать как человек. Чтобы совершить этот грандиозный подвиг, поисковая система Google с искусственным интеллектом по необходимости сместила акцент со строк ключевых слов на распознавание сущностей. Как отмечает Пол Брюммер в статье Search Engine Land, на которую мы ссылались ранее, «чтобы оптимизировать веб-сайты для поиска в будущем, специалистам по поисковой оптимизации необходимо будет создавать на веб-страницах релевантные, распознаваемые компьютером «сущности», которые отвечают на хорошо уточненные, целенаправленные или узкие запросы."

Представьте эти объекты как точки на очень большой и подробной карте, пересекающиеся миллиардами ссылок, показывающих связи между ними всеми. По сути, это то, что ваш мозг делает каждый день, постоянно добавляя семантическую информацию в свой собственный граф знаний.

Поисковикам, однако, нужна небольшая помощь. Вместо оптимизации строк ключевых слов веб-мастера и SEO-специалисты могут использовать разметку схемы на странице (небольшие фрагменты HTML-кода или теги), чтобы помочь семантическим поисковым системам, таким как Knowledge Graph, «понимать» вещи или объекты, на которые есть ссылки на определенных веб-страницах. Использование такой иерархии структурированных данных помогает поисковым системам понимать контекст и, таким образом, формировать семантические связи между строками ключевых слов и реальными вещами.

К настоящему моменту вы, вероятно, уже видите, как использование структурированной иерархии данных, такой как разметка схемы, может принести пользу конечным пользователям, поскольку помогает поисковым системам предоставлять более релевантные ответы на поисковые запросы конечных пользователей. Это также полезно для бизнеса, так как поисковым системам проще распознавать «релевантность» веб-контента компании и сопоставлять его с конкретными запросами.

Например, если бы я хотел, чтобы граф знаний и другие семантические поисковые системы действительно распознавали этот блог как дискретную "сущность" сам по себе, я мог бы выполнить полную разметку схемы для "блога", что Я должен сказать, чертовски всеобъемлющий. К концу этого у поисковых систем будет более трехмерное понимание этого блога, чем у меня самого (что немного грустно, если подумать).

Это тоже социалка?

Как только вы подумали, что можно безопасно вернуться в Интернет, семантический поиск, ну, не только в поиске, но и в социальных сетях. Graph Search - это внутренняя семантическая поисковая система Facebook, работающая по аналогии с Knowledge Graph от Google. Да, Zuck и Crew изучают практически каждый закоулок из более чем 1 миллиарда профилей Facebook, чтобы предоставить вам и всем вашим друзьям контекстно релевантные результаты поиска.

Подождите секунду, насколько контекстуально релевантной может быть поисковая система без учета человеческих эмоций? Не волнуйтесь, Facebook тоже это понял. Возможно, в ответ на рекомендацию W3C по языку разметки эмоций весной 2013 года Facebook выпустил приложение Share Moods, предоставляющее пользователям доступ к бесчисленным смайликам (love em), с помощью которых они могут выражать свои чувства. Этот блестящий ход представляет собой подарок, который продолжает приносить Facebook и Graph Search, снабжая последний постоянным потоком структурированных поведенческих данных для улучшения его машинного обучения, а первый - чем-то новым, чтобы рекламодатели и маркетологи могли крутить педали по правильной цене.

Достаточно сказать, что этот пост только царапает поверхность семантического поиска. Для более полной обработки поиска сущностей ознакомьтесь с трактовкой Джастина Бриггса здесь. Кроме того, авторы MOZ и Search Engine Watch хорошо и часто освещают эту важную тему.

Cogito Ergo Sum

Рене Декарт считался отцом современной западной философии; Я полагаю, что его также можно считать дедушкой семантического поиска. Его принцип Cogito Ergo Sum содержательно резюмирует ключевой фактор, отличающий наш нынешний подход к поиску на основе строк ключевых слов от быстро приближающегося будущего, в котором доминирует семантический поиск: способность поисковых систем думать и при этом распознавать вещи, а не строки.

Я думаю, что если бы Декарт был жив сегодня, он был бы крутым SEO- или SSO (оптимизатором семантического поиска) – или как мы сейчас называем этого человека…