Могут ли машины мыслить? Способны ли они превзойти человеческий интеллект? Этими вопросами учёные, философы и инженеры задавались с момента зарождения современной вычислительной техники. Однако особенно актуальными они стали сейчас, когда большие языковые модели (Large Language Model, LLM) уже способны написать статью, пройти экзаменационные тесты в школе и вузе, сгенерировать картину или мелодию. По многим оценкам, передовые разработчики искусственного интеллекта (ИИ) уже вплотную приблизились к созданию сильного или общего ИИ (Artificial General Intelligence, AGI). Его появление возможно в перспективе нескольких ближайших лет. Как же мы сможем понять, что компьютерная модель приблизилась к нам по способностям, а то и опередила? Ответ дал почти 75 лет назад математик Алан Тьюринг. И лучше пока ничего не придумали, хотя попыток было много.
Чтобы убедиться в том, что новый самолет летает, корабль плавает, а мост выдерживает положенные нагрузки, — их обязательно испытывают. Такой же инженерный подход возможен и к проблеме искусственного интеллекта. Мы можем не задаваться трудными вопросами о природе сознания или мышления, но если система справляется с определённой задачей, — значит её можно считать «мыслящей». Однако какой должна быть эта задача?
Наиболее известный вариант предложил сам автор подобного подхода, один из пионеров теории искусственного интеллекта, британский математик Алан Тьюринг. В его интерпретации мышление означало работу с символьными системами, и ещё в начале 1950-х он выделил несколько самых перспективных областей, в которых вычислительное «мышление» компьютера может проявляться идентично нашему. В их числе — понимание языка и машинный перевод.
Он предложил проверять способности ИИ с помощью свободного диалога в ходе имитационной игры. В классическом варианте судья, общаясь с невидимым собеседником посредством компьютерной консоли, должен за определённое ограниченное время — обычно пять минут — решить, с человеком или машиной он разговаривает.
Если хотя бы двое из трёх судей примут ИИ за живого человека, испытание считается пройденным. Стоит заметить, что неспособность выполнить тест не свидетельствует об обратном. Даже если живой человек не сможет внушить судье, что он не компьютер, это не означает, что такой человек не обладает мышлением.
Как бы то ни было, предложенная учёным имитационная игра уже вскоре стала называться тестом Тьюринга, а публикация о ней стала одной из самых цитируемых и обсуждаемых в истории математики. Уже в середине 1960-х появились тысячи ответных статей, в которых идеи Тьюринга обсуждались, дополнялись, а часто и критиковались.
Это действительно так! В качестве прообраза своего теста Тьюринг использовал хорошо знакомую ему по жизни в Англии викторианскую «игру в имитацию». Условия её были просты: двое или трое игроков, обычно из высшего общества, прятались за непрозрачной ширмой. Ведущий, обмениваясь записками с игроками, должен был определить, кто из них — женщина, а кто только притворяется ею. Иными словами, подспудно подразумевалось, что по ответам на вопросы можно чётко отделить мужчину от женщины.
При этом такое испытание можно рассматривать и как «тест на интеллект» для мужчины, которому требуется имитировать «женское» поведение и реакции. Тьюринг почти напрямую перенёс эту ситуацию на взаимодействие с ИИ. Теперь машинам требовалось имитировать живого человека, оставаясь скрытыми от судей.
Их много. Вплоть до ЕГЭ! Вот самые знаменитые:
Тест, предложенный стэнфордским профессором Терри Виноградом (Terry Winograd), предлагает компьютеру ответить на ряд письменных вопросов, требующих понимания контекста и отношений между объектами реального мира. Например: «Пакет не влезает в чемодан, он слишком большой. Кто здесь “он”?» (на всякий случай, правильный ответ — «пакет»). Такая схема не вызовет затруднений у «естественного» интеллекта, но до сих пор остаётся серьёзным вызовом для искусственного.
Такой подход позволяет оценить ИИ по его способности ориентироваться в реальности, обрабатывая и объединяя разнообразные мультимодальные данные. Будучи частью сложного робота (или команды роботов), система должна решать комбинированные задачи — например, собрать мебель, используя обычные инструменты и бумажную инструкцию. Пока что прохождение подобных тестов для ИИ — из области фантастики.
Существуют предложения использовать для оценки ИИ обычные школьные и другие подобные тесты на общее развитие. Такой подход удобен и прагматичен, однако правильные ответы здесь может давать и большая языковая модель, обученная на обширных базах текстов, и вовсе лишённая «мышления» система, способная просто находить нужную информацию в интернете.
Эту концепцию прорабатывает Мюррэй Кэмпбелл (Murray Campbell) и его коллеги из Исследовательского центра IBM имени Томаса Уотсона. Она также отталкивается от способностей ИИ работать с мультимодальными данными. Машине могут предлагать, например, прослушать аудиозапись и коротко пересказать её, затем изложить сюжет просмотренного видеоролика и т.д. По задумке, оценку результатов тестирования I-Athlon также будут проводить с помощью ИИ, полностью исключив «фактор антропоморфизма». Опять же, с задачей резюмирования сейчас прекрасно справляются многие известные модели.
Многие знают Стивена Возняка как сооснователя Apple Inc. и создателя первых персональных компьютеров этой компании. Однако он также оригинальный мыслитель и визионер, в том числе в области искусственного интеллекта. В одном из своих интервью Возняк предложил оригинальный тест. По его мнению, ИИ необходимо уметь полноценно взаимодействовать с людьми и реальным физическим окружением, а также успешно ориентироваться в новой обстановке без предварительного обучения.
Как этого достичь? Научить робота варить кофе! Но не просто так. Робот под управлением системы ИИ должен уметь в любой случайно взятой кухне, где он раньше не был и план которой не загружен в его систему, найти кофе, кофеварку или кофемашину — и приготовить напиток. До сих пор эта задача лежит далеко за пределами возможностей алгоритмов и робототехники.
Главным плюсом теста Тьюринга считается элегантность, с которой он позволяет обходить вопросы, связанные с природой и конкретными свойствами мышления и сознания. Однако в силу тех же причин многие специалисты считают его слишком узкой и частной задачей. Заставляя разработчиков ориентироваться на выполнение теста, он уводит их от решения более широких вопросов создания «полноценного» — общего или сильного ИИ, подобно тому как тесты ЕГЭ, по мнению некоторых учителей, сводят образованность к способности правильно выбрать ответ из предложенного набора.
Пожалуй, самым известным критиком методологии Тьюринга выступил американский философ Джон Сёрл (John Searle), который в 1980 году предложил мысленный эксперимент «Китайская комната». Представьте, что в комнате изолирован человек, не знающий ни слова по-китайски, но вооруженный всеми нужными словарями и инструкциями. Получив неизвестный иероглиф, он может, сверившись со справочниками, выбрать правильный иероглиф в ответ, при этом совершенно не осознавая смысла переписки. Так и машина, — отмечал Сёрл, — может пройти тест Тьюринга без какого-либо понимания языка.
Его публикация о «Китайская комнате» вызвала шквал ответов и дискуссий почти такой же, как и статья самого Тьюринга. Однако ни она, ни многие другие аргументы против теста Тьюринга не могли одолеть его очевидные достоинства — простоту и наглядность.
Попытки пройти его начались ещё с 1960-х и продолжаются до сих пор. С 1990 года проводятся ежегодные соревнования на премию Лёбнера, хотя ни первую, ни вторую награды до сих пор не получила ни одна программа. Серебряная медаль (и 25 тыс. долларов) на конкурсе достанется первой системе, которая пройдёт классический тест Тьюринга, а золотая (и 100 тысяч) — той, что справится с комбинированным вариантом, используя текстовое, визуальное и звуковое подтверждение, после чего соревнования прекратятся.
Однако пока уверенной победы нет, и отдельные системы получают лишь бронзовые награды за демонстрацию лучших результатов. Начиная с 2016-го все премии забирает Стив Уорсвик (Steve Worswick) из Pandorabots AIML со своим чатботом Mitsuku. Система имитирует 18-летнюю жительницу британского Лидса, и вы можете пообщаться с ней прямо через Telegram или Facebook Messenger (принадлежит компании Meta, признанной в России экстремистской организацией).
И не мало! Вот несколько самых прославленных программ всех времён и народов:
Программа немецкого учёного Джозефа Вейценбаума ( Joseph Weizenbaum ) была создана ещё в 1966 году и впервые смогла обмануть некоторое количество судей в тесте Тьюринга. Алгоритм мог отвечать на вопросы, находя в них соответствующие слова, а если таковых не было — имитировал поведение психотерапевта, переформулируя и «возвращая» вопрос задающему.
Разработка стэнфордского психиатра Кеннета Колби ( Kenneth Colby ) опиралась на принцип, найденный Вейценбаумом, только подражала не психиатру, а его пациенту, грубо имитируя поведение страдающего паранойей. В таком контексте её эмоциональные, часто не в тему ответы действительно могли обманывать живых судей в тесте.
Трёхкратный победитель премии Лёбнера в начале 2000-х, программа создана Ричардом Уоллесом ( Richard Wallace ) и использует собственную базу знаний для поиска правильного ответа. Тем не менее, тест Тьюринга она не прошла.
Чатбот разработан программистами из России и Украины ещё в 2001 году и несколько раз брал призовые места на премии Лёбнера. А в 2014-м, на прошедшем в Университете Рединга конкурсе, посвящённом 60-летию со дня смерти Алана Тьюринга, успешно убедил треть судей в том, что он — живой человек. Программа стала первой, формально прошедшей тест, и при этом она полностью лишена какого-либо «интеллекта».
Проблема с тестом Тьюринга ещё и в том, что, будучи по природе своей игрой в имитацию, он позволяет системе скрыть свои истинные, обычно и вовсе отсутствующие «мыслительные» способности, выдав их за обычное человеческое незнание, сославшись на эмоции и т.п. Этот момент осознавал и сам Тьюринг, отметив как-то, что лучший способ пройти тест состоит в том, чтобы не отвечать на заданные вопросы. Именно так и произошло в 2014 году, когда чатбот Eugene Goostman обманул необходимые для успеха две трети членов жюри, убедив их в том, что он — не машина, а живой человек.
У программы оказалась весьма удобная легенда: она выдавала себя за подростка Евгения Густмана, эмигранта из Одессы, который плохо ориентируется в новой стране и не очень уверенно говорит по-английски. Это позволило чатботу не отвечать прямо и ясно ни на один поставленный вопрос, каждый раз ловко ускользая от темы. Например, его спрашивали: «Ты считаешь себя умным?» — и получали такой ответ: «Вы не можете и представить, насколько я умён :-))) Кстати, а чем вы заняты? Можете рассказать, кем вы работаете?».
Кроме того, сама постановка теста подразумевает сравнение машинного интеллекта с человеческим, и многие современные философы активно критикуют подобный антропоморфизм. Наконец, он остаётся узким, сводя мультимодальность «истинного» интеллекта к одной, в общем-то нехитрой задаче. Поэтому специалисты не рассматривают прохождение теста Тьюринга, как однозначный признак способности машины мыслить, и обсуждают различные новые варианты испытаний — посттьюринговскую парадигму. Скорее всего, одним тестом дело не ограничится, и «полноценный» сильный ИИ должен будет выполнить целый ряд разнообразных по форме и содержанию задач.
IQ
Авторы текста: Роман Фишман, Даниил Кузнецов
В подписке — дайджест статей и видеолекций, анонсы мероприятий, данные исследований. Обещаем, что будем бережно относиться к вашему времени и присылать материалы раз в месяц.
Спасибо за подписку!
Что-то пошло не так!