«Разум — это 10 миллионов правил», — говорит один из основоположников искусственного интеллекта (ИИ) Дуглас Ленат. Уже почти 40 лет он пытается научить компьютеры простейшей логике, скрупулезно описывая сотни тысяч понятий и миллионы отношений между ними.
Со статистикой у компьютеров всё хорошо, а вот с логикой не очень. Машины легко оперируют огромными объёмами информации и быстро находят нужные сведения, а технологии глубокого обучения позволяют им обнаружить даже весьма сложные связи и паттерны в огромных массивах данных. Спросите поисковую систему или «умную» колонку, в каком году родился Юрий Гагарин, и она ответит моментально. Но затем поинтересуйтесь, «Кто был президентом США, когда родился Юрий Гагарин?» — и система окажется в тупике.
Каким будет выражение лица у папаши, обучающего младенца ходить? Любой человек скажет, что улыбающимся: мы понимаем, что такие моменты вызывают счастливые переживания, а они выражаются соответствующей мимикой. Компьютеру всё это совершенно незнакомо. Даже самая мощная нейросеть остаётся статистической моделью, которая реагирует на запросы, не понимая ни сути задачи, ни её контекста. Машине неизвестны мириады простых логических закономерностей, которые люди усваивают в ходе взросления и жизни в реальном мире.
Очевидно, что без элементарного здравого смысла никакой сильный или общий искусственный интеллект (Artificial general intelligence, AGI) невозможен. Разработчики нейросетей редко озадачиваются этой проблемой, ограничиваясь созданием решений для конкретных практических задач. В лучшем случае они рассчитывают, что количество рано или поздно перейдёт в качество. Тогда «нейросеть нейросетей», объединив массу узконаправленных, слабых искусственных интеллектов, базирующихся на статистике, каким-то образом обретёт и полноценное понимание окружающего мира.
Многие знают Стивена Возняка как сооснователя Apple Inc. и создателя первых персональных компьютеров этой компании. Но Воз, как его прозвали в IT-сообществе, не только выдающийся инженер, хакер и филантроп, — он один из оригинальных мыслителей и визионеров Кремниевой долины. В том числе и в области искусственного интеллекта.
В одном из своих интервью Возняк предложил оригинальный «Кофейный тест» для проверки сильного или общего искусственного интеллекта (Artificial General Intelligence, AGI). По его мнению, классический тест Тьюринга и его разнообразные современные вариации совершенно не подходят для этой цели.
ИИ не должен пытаться успешно сымитировать человека, а, наоборот, полноценно взаимодействовать с ним и реальным физическим окружением. Но самое главное — успешно ориентироваться в новой обстановке без предварительного обучения. Как этого достичь? Научить робота варить кофе!
Но не просто так. Робот под управлением системы ИИ должен уметь в любой случайно взятой кухне, где он раньше не был и план которой не загружен в его систему, найти кофе, кофеварку или кофемашину — и приготовить напиток. До сих пор эта задача лежит далеко за пределами возможностей алгоритмов и робототехники.
Этот подход «снизу вверх» получил распространение лишь в последние годы. Исторически первым было противоположное направление, «сверху вниз». Программисты десятилетиями работали над кодированием сложных систем, в которых были бы описаны понятия, сущности и логические отношения между ними. Классифицированные и упорядоченные сведения об объектах и их свойствах собирали в обширные базы знаний. На этой основе даже удавалось реализовать экспертные системы, которые могли давать автоматические заключения по соответствующей теме.
Такой энтузиазм можно понять. Ещё в 1950-х пионеры искусственного интеллекта обнаружили, что минимальный набор простых правил может приводить к весьма сложному поведению. А если мы закодируем набор посерьёзней, то неужели такая система не проявит — пусть не сознание, — но хотя бы базовое разумное мышление?
Вдохновленный такими мыслями, американский разработчик Дуглас Ленат (Douglas Lenat) и его большая команда уже почти 40 лет наполняют и расширяют граф знаний грандиозного проекта Cyc. В нём описываются бесконечные сущности нашего мира и отношения между ними, с учётом исключений, а также исключений из исключений.
Проблема неспособности искусственного интеллекта работать с широким спектром задач и большим числом разнообразных понятий была осознана ещё в начале 1980-х. В 1983-м Ленат, тогда ещё профессор Стэнфордского университета, подсчитал, что для реализации нужной для общего искусственного интеллекта универсальной базы знаний потребуется порядка нескольких тысяч человеко-лет. Подобные ресурсы недоступны подавляющему большинству исследовательских проектов, — однако тут разработчикам пришла на помощь глобализация.
В те годы Япония развивалась необычайно стремительно и быстро вытесняла американских производителей с таких высокотехнологичных рынков как микроэлектроника, бытовая техника, автомобиле- и судостроение. Опасаясь, что дальневосточные конкуренты вырвутся вперёд и в области искусственного интеллекта, оставив США позади ещё и в этой важнейшей сфере, американское правительство и ведущие корпорации начали финансировать ускоренные разработки. В числе поддержанных тогда проектов оказался консорциум Microelectronics and Computer Technology Corporation (MCC). О большом внимании к его работе говорит хотя бы тот факт, что первым президентом MCC стал Бобби Инмэн, бывший глава Агентства национальной безопасности (АНБ) и заместитель директора ЦРУ.
Реализовать проект на практике пригласили Лената. И он, оставив кафедру в Стэнфорде, полностью переключился на проект Cyc (по-русски его принято читать как «Сайк»). Его целями стали:
разработка языка CycL, подходящего для кодирования универсальной базы знаний;
описание онтологий (понятий и связей между ними), охватывающих все области человеческих знаний с «приемлемой» детализацией;
создание базы знаний, способной автоматически отвечать на вопросы, опираясь на произрастающий из онтологий «здравый смысл».
Первоначальные оценки Дугласа Лената оказались довольно оптимистическими. Уже за первое десятилетие работы над проектом база охватила порядка 100 000 понятий и концепций, а к 2017-му их количество превысило 1,5 миллиона. На Cyc уже затрачено более 1000 человеко-лет, описано около 24,5 миллионов правил-отношений, однако конца проекта так и не видно. Система с успехом справляется со многими довольно сложными задачами, однако до истинного сильного искусственного интеллекта ей по-прежнему далеко.
«Это называется комбинаторным взрывом, — объяснил нам специалист по сильному ИИ из компании Temporal Games Дмитрий Салихов. — С увеличением количества описанных понятий и сущностей число отношений между ними растёт экспоненциально, и быстро уходит за пределы физических возможностей их предусмотреть и закодировать. На этом всё заканчивается».
По счастью, сам Ленат мыслит стратегически и, по-видимому, сразу ориентировался на работу вдолгую. Ещё в 1994-м он вышел из консорциума MCC и запустил собственную независимую компанию Cycorp с примерно полусотней сотрудников, занятых наполнением и совершенствованием Cyc. Проект самостоятельно зарабатывает деньги и не зависит от доброй воли и пожеланий инвесторов.
По словам Лената, уже много лет большую часть доходов Cycorp получает за счёт продажи «семантических карт», позволяющих извлекать информацию из разных баз данных, ориентируясь на запрос пользователя. Это даёт проекту возможность не только держаться на плаву, но и постоянно развиваться.
Начиная с 2016-2017 годов база знаний коммерциализируется. На её основе создана система обучения математике MathCraft, научная экспертная система ResearchCyc и т.п. В Кливлендской клинике алгоритмы, использующие Cyc, участвуют в постановке диагнозов, а в Мемориальном институте предотвращения терроризма (National Memorial Institute for the Prevention of Terrorism, MIPT) — в идентификации потенциальных преступников.
«Система знаний Cyc стала действительно весьма хорошей, — говорит профессор Северо-Западного университета Кен Форбус, пользователь ResearchCyc. — Идеальна ли она? Нет. Всеобъемлюща? Нет. Но шире ли она всего остального, что имеется в нашем распоряжении? Да».
Многие специалисты видят будущее общего искусственного интеллекта в комбинированном подходе, с одновременным использованием и нейросетей, и графов знаний, подобных Cyc. По таким принципам построена, например, система Google Knowledge Graph. Эта база знаний использует данные «Википедии», словаря WordNet и некоторых других онтологий, закодированные в виде алгоритмической системы. При введении запроса «В каком году родился Пушкин» уже в «быстрой подсказке» всплывет дата, которую моментально находит граф. Его работу дополняют нейросети, которые помогают деконструировать ввод — например, определить правильное слово, даже если оно было набрано с ошибками.
Аналогично устроены и чатботы, и многие голосовые помощники — «гибриды» баз знаний и нейросетей. Однако вряд ли даже такой огромный проект как Cyc когда-нибудь окажется частью общего искусственного интеллекта. «Думаю, даже в команде Лената мало кто до сих пор верит в достижение первоначальных целей проекта», — говорит Дмитрий Салихов. Может показаться, что весь этот муравьиный труд оказался совершенно напрасным — но это не совсем так.
«Всё, что происходит в нашей области, это, по сути, разведка боем. — добавляет Дмитрий. — Перед нами пространство, огромное, открытое и совершенно неизведанное. Поэтому так и приходится: копать то здесь, то там, проверять разные направления, иногда просто для того, чтобы убедиться — направление выбрано неверное. И если бы не Ленат, мы бы могли потратить ещё миллионы человеко-часов на разработку этого тупика. Так что спасибо ему за это».
По-видимому, появление сильного искусственного интеллекта потребует комбинации обоих подходов: использования обучающихся нейросетей в тандеме с символическими системами знаний, подобными проекту Дугласа Лената. Но если разработки в области нейросетей множатся, как на дрожжах, то Cyc остаётся редким примером масштабной и универсальной онтологической базы. Когда придёт время объединить статистическую мощь глубинного обучения с эвристической силой здравого смысла, именно Cyc может стать основой будущего общего искусственного интеллекта.
IQ
Авторы текста: Роман Фишман, Даниил Кузнецов
В подписке — дайджест статей и видеолекций, анонсы мероприятий, данные исследований. Обещаем, что будем бережно относиться к вашему времени и присылать материалы раз в месяц.
Спасибо за подписку!
Что-то пошло не так!