Winograd Schema Challenge: альтернативный тест Тьюринга ставит программы AI на стыд

Автор: Селезнев Владимир [email protected].

Публикация: 2025-03-05 00:35.

Последние изменения: 2025-03-05 00:35

Короткие байты: Обдумывается альтернатива тесту Тьюринга. Важнейшим из них является Winograd Schema Challenge, в котором боты ИИ должны отвечать на специально разработанные вопросы, чтобы доказать свой интеллект и здравый смысл.

С прошлого десятилетия развитие искусственного интеллекта идет полным ходом: компьютерные устройства становятся умнее с каждым днем. У нас есть Сири и Кортана, которые могут понять наши запросы с помощью голосовых команд и выставить соответствующий ответ перед нами. Эти голосовые помощники выполняют основную работу по пониманию смысла предложения, брошенного им.

Другое использование искусственного интеллекта - создание искусственно-интеллектуальных ботов, которые способны расшифровывать нормальный язык и отвечать соответствующим образом. Тест Тьюринга, названный в честь Алана Тьюринга, является методом, используемым для оценки интеллекта искусственного интеллекта. Но у этого теста есть свои подводные камни и лазейки. В качестве примера можно привести Юджина Густмана - первого ИИ-бота, который прошел тест Тьюринга, обманув 30 процентов судей, которые он был украинским мальчиком.

Были найдены альтернативы для теста Тьюринга, и появилось новое имя Winograd Schema Challenge (WSC), основанное на схеме Винограда, созданной Терри Виноградом из Стэнфордского университета. WSC был предложен специалистом по вычислительной технике Университета Торонто Гектором Левеском (Hector Levesque), чтобы проверить машинный интеллект, пройдя тест с несколькими вариантами ответов.

Структура вопросов, разработанных для Winograd Schema Challenge, очень специфична по формату. Давайте рассмотрим пример вопроса, например:

Трофей не поместился бы в коричневом чемодане, потому что он был слишком большим (маленьким). Что было слишком большим (маленьким)?

Ответ 0: трофей
Ответ 1: чемодан

Ответ на этот вопрос - включает в себя здравый смысл, который является сложной задачей для компьютеров - решить, что есть «что». Это будет 0, если слово большое используется в предложении, и 1, если слово маленькое принимается во внимание. Компьютерная программа может почесать голову от этого, хотя и не буквально.

Теперь, чтобы принять участие в конкурсе, чтобы получить денежный приз в размере 25 000 долларов, программа должна достичь точности 90%. Программа Winograd Schema Challenge в этом году была проведена на IJCAI 2016 в Нью-Йорке 12 июля.

Из всех участников двое из них - профессор USTC. Куан Лю и исследователь Открытого университета Кипра Никос Иссак - лидировали в своих программах, достигнув наивысшего уровня точности, который составил 48 процентов, когда программы использовали свой цифровой мозг, чтобы найти ответ. Тем не менее, уровень точности 45 процентов был достигнут, если ответы были выбраны случайным образом.

Консультант WSC Contest не удивлен тем фактом, что конкуренты, работающие с AI-ботами, смогли справиться с этим. «Неудивительно, что машины были чуть лучше шансов», - говорит он. Он высоко оценил исследования и разработки в области искусственного интеллекта, проводимые под крышами таких компаний, как Google и Facebook. «Возможно, эти парни ввалились в эту комнату и получили сто процентов», - смеется он. «Но это поразило бы меня».

Повышение уровня интеллекта этих искусственных мозгов для чата - трудная задача, особенно придающая им «здравый смысл», который иногда даже люди не дают вам. На самом деле, это всего лишь часть программного обеспечения, наполненная грамматическими понятиями и большими кусками повседневных человеческих разговоров. Некоторые вещи выходят далеко за рамки математических вычислений и предположений, сделанных этими собеседниками ИИ. Но мы можем надеяться, что будущие боты будут иметь более высокий интеллектуальный уровень, чем их предки. Несколько десятилетий назад у нас не было ботов-предков.

Что вы думаете о Winograd Schema Challenge? Расскажите нам в комментариях ниже.