Будущее мобильных устройств: визуальный поиск

Автор: Селезнев Владимир [email protected].

Публикация: 2025-03-05 07:29.

Последние изменения: 2025-03-05 07:29

Недавно мне на глаза попались две новости о технологиях, которые, взятые вместе, предполагают, что будущее мобильных открытий связано с системой визуального поиска.

6 ноября 2013 года América Móvil, латиноамериканский телекоммуникационный гигант, возглавляемый миллиардером Карлосом Слимом, возглавил крупный раунд инвестиций в размере 60 миллионов долларов США в мобильную платформу обмена изображениями и видео Mobli. Хотя сногсшибательно, размер инвестиций был не так интересен, как их намерения. Как сообщает TechCrunch, Mobli хочет использовать деньги для запуска и расширения своей поисковой системы, позволяющей пользователям «видеть мир глазами других людей».

Перенесемся ровно через два месяца, 6 января 2014 года, Pinterest объявила о приобретении стартапа VisualGraph, который создает технологии машинного зрения, распознавания изображений и визуального поиска.

На Pinterest миллионы людей каждый день курируют и делятся миллиардами пинов. И эти пины - это больше, чем просто изображения - они ссылаются на контент, который может вдохновлять и обогащать жизнь людей. Мы рады возможности объединить машинное зрение с человеческим зрением и кураторством, а также создать визуальное открытие, которое будет одновременно эстетически привлекательным и чрезвычайно полезным для людей во всем мире.

То же самое из команды Pinterest: «Приобретение VisualGraph поможет нам создать технологию, позволяющую лучше понимать, что люди пинят. Делая это, мы надеемся, что людям будет легче находить то, что они любят».

Чувствуя важную историю, эти две истории заставили меня немного глубже изучить идею системы визуального поиска. Потратив некоторое время на изучение темы, я теперь убежден, что переход пользователей на мобильные устройства приведет к сейсмическому переходу к визуальному поиску. Вот (краткое) резюме моих выводов.

Традиционный подход: поиск изображений на основе концепций

В той мере, в какой существует традиционный подход к любой форме поиска изображений, я полагаю, что индексация изображений на основе понятий будет таковой. Этот тип поиска, также известный как поиск изображений на основе описания или текста, относится к индексации и поиску текстовых изображений, которые могут использовать метаданные, такие как ключевые слова, тематические заголовки, теги, подписи или естественный язык. текст. В течение многих лет SEO-специалисты и специалисты по цифровому маркетингу оптимизировали изображения, чтобы поисковые системы, такие как Google, могли понимать и правильно индексировать визуальный контент, такой как изображения (и письменный контент, часто связанный с ним).

Новый подход: поиск изображений на основе контента (CBIR)

С CBIR, напротив, поисковые системы анализируют визуальное содержание изображения (пиксели), а не метаданные. В этом смысле понятие «содержание» может относиться к цветам, формам, текстурам или любой другой информации, которая может быть получена из самого изображения.

CBIR набирает популярность из-за неэффективности и ограничений, присущих поиску изображений на основе метаданных. Оптимизация для текстового поиска может занять много времени и привести к непреднамеренной двусмысленности (особенно если учитывать использование синонимов или омонимов); однако до недавнего времени многие системы поиска изображений, такие как поиск изображений Google, основывались исключительно на тексте.

Обратный поиск изображения

Обратный поиск изображения - это метод запроса CBIR, который включает в себя предоставление поисковой системе образца изображения, на котором основывается запрос. Обратный поиск изображений позволяет пользователям обнаруживать контент, связанный с конкретным образцом изображения, популярностью изображения, а также обнаруживать модифицированные версии и производные работы

Различные реализации CBIR используют разные типы пользовательских запросов. Примеры включают поиск картинок Google и Tin Eye.

Жестяной глаз

Взято из описания приложения в расширении Chrome, Tin Eye утверждает, что является первой системой поиска изображений в Интернете, которая использует технологию идентификации изображений, а не метаданные:

Когда вы отправляете изображение для поиска, TinEye создает для него уникальную и компактную цифровую подпись или «отпечаток пальца», а затем сравнивает этот отпечаток с любым другим изображением в нашем индексе для поиска совпадений. TinEye обычно не находит похожие изображения; он находит точные совпадения, включая те, которые были обрезаны, отредактированы или изменены. Каждую неделю TinEye добавляет в свою базу данных десятки миллионов новых изображений.

Поиск картинок Google

Вот как Google описывает свою поисковую систему CBIR:

Вместо того, чтобы вводить слова, вы можете использовать изображение в качестве поиска, чтобы найти похожие изображения со всего Интернета. Например, если вы выполняете поиск по изображению вашей любимой группы, вы можете найти похожие изображения, веб-сайты о группе и даже сайты с таким же изображением… При поиске по изображению ваши результаты могут включать:

Результаты изображений, похожих на ваши
Веб-результаты для страниц, содержащих совпадающие изображения
Другие размеры изображения, которое вы искали

Я решил быстро проверить обе поисковые системы CBIR. Вот результаты первого, что пришло мне в голову (не спрашивайте):

NB: Для тех, кто заинтересован, вот список общедоступных механизмов поиска изображений на основе контента.

Системы CBIR используют обратную связь по релевантности, поскольку пользователь уточняет результаты CBIR, нажимая на изображения, которые лучше всего отражают цель поиска. Поступая таким образом, пользователь предоставляет поисковой системе семантический контекст, помогая ей лучше «понимать» точное значение заданного поискового запроса, чтобы в будущем она могла более эффективно выдавать результаты. Способность поисковой системы учиться по контексту необходима для улучшения ее семантических возможностей поиска.

Семантический поиск

Способность человеческого мозга сохранять и впоследствии извлекать информацию в зависимости от контекста имеет решающее значение для познания. Это позволяет нам формировать хранилище семантических знаний, гибко получать доступ к информации о концепциях и объектах, чтобы понимать входные данные и генерировать ответы. В общем, есть два способа доступа к семантическим знаниям - автоматический и контролируемый поиск.

Автоматический поиск - ключевой аспект мышления высшего порядка. Это бессознательно, непроизвольно и без усилий. С другой стороны, контролируемое извлечение является сознательным, произвольным и преднамеренным. Он также менее эффективен. Контролируемое извлечение требует сознательного мышления и анализа.

Приведу пример. Найдите секунду, чтобы отступить и посмотреть на компьютер, планшет или мобильное устройство, на котором вы читаете этот пост. А теперь представьте, что вам нужно передать смысл того, на что вы смотрите, другому человеку. Если бы ваша цель состояла в том, чтобы точно передать то, что вы видите, вплоть до мельчайших деталей - действительно дать другому человеку четкое представление о том, на что вы смотрите - что было бы быстрее, показав ему изображение (изображение) вашего устройства, или описание его в устной или письменной форме (любой, кто не уверен в ответе на этот вопрос, должен прочитать немного Марселя Пруста, человека, который, как известно, занимает несколько страниц, чтобы описать кусок хлеба)?

Вот что я хочу сказать. Эффективность функции автоматического поиска имеет решающее значение для познания более высокого уровня и семантического обучения; представьте, как далеко мы продвинулись бы в жизни, если бы нам приходилось постоянно думать или, в некотором смысле, «переучивать» значение всего, что нас окружает.

Однако благодаря технологическим достижениям в машинном зрении и восприятии, распознавании речи и языковом переводе компьютеры теперь могут имитировать такое сложное мышление. Нигде это не было так очевидно, как в знаменитом эксперименте Google «кошка» 2012 года, когда ученые Google создали одну из крупнейших нейронных сетей для машинного обучения, соединив 16 000 компьютерных процессоров, чтобы проверить, сможет ли она распознать концепцию кошки без каких-либо подсказок; они никогда не говорили в сети: «Это кот. Несмотря на это, машина смогла изобрести понятие кошки, просто просматривая миллионы изображений кошек, пока ее понимание слова «кошка» не стало автоматическим.

Значение для бизнеса

Почему это важно? Эти типы возможностей семантического поиска выводят поиск изображений на основе контента на совершенно новый уровень, прокладывая путь к более эффективной и релевантной для потребителя форме поиска, которая сейчас внедряется в Pinterest Visual Graph и визуальный поисковик Mobli. Поскольку мир продолжает становиться мобильным и тактильным, удобство и эффективность семантически интеллектуального визуального поиска будут становиться все более очевидными, в то время как полезность текстового поиска становится все меньше. Такая технология может также ускорить массовое внедрение мобильных приложений дополненной реальности (например, новое приложение Amazon для iOS).

Размышляя о коммерческих последствиях Visual Graph от Pinterest, Джош Констин из Tech Crunch написал: Упрощая навигацию в Pinterest через визуальный поиск, люди могли бы использовать его больше как сайт для покупок, чем место для поиска вдохновения. А там, где есть поиск, есть место и для релевантной рекламы, показывающей людей, у которых уже есть намерение совершить покупку, что может быть очень прибыльным для Pinterest.

Для мобильных пользователей и компаний, пытающихся связаться с ними, это утверждение также служит веским аргументом в пользу визуального поиска.