Лучшие команды разработчиков во всем мире пытаются создать нейросеть, похожую на любопытного, но скучающего трёхлетнего малыша. Зачем им это нужно и как такие методы могут приблизить нас к созданию сильного искусственного интеллекта — рассказываем в новом материале IQ.HSE.
Множество концепций и идей, на которые опираются современные разработки в области искусственного интеллекта (ИИ), берут начало в классической статье Алана Тьюринга «Вычислительные машины и разум», опубликованной в далёком 1950 году. Наибольшую известность из неё приобрёл знаменитый «тест Тьюринга», однако другие аспекты этой работы долго оставались незамеченными.
Так, уже в те годы знаменитый математик задавался вопросом: «Почему бы нам, вместо того, чтобы пытаться создать программу, имитирующую ум взрослого, не попытаться создать программу, которая бы имитировала ум ребёнка?». Однако развитие ИИ пошло совсем иным путём.
Десятилетиями интеллект рассматривали как «универсальный решатель задач», и разум ребёнка для него казался совершенно ненужным промежуточным этапом. Зачем им заниматься, если это лишний шаг между первоначальным «белым листом» (tabula rasa) и теми «взрослыми» навыками, которые мы стремимся воспроизвести? В рамках этого подхода удалось добиться значительных успехов, хотя и не совсем тех, что ожидались изначально.
Например, нейросети и глубокое обучение позволили ИИ освоить некоторые весьма сложные интеллектуальные задачи, с блеском играть в шахматы и го, резюмировать содержание текстов или генерировать собственные «произведения». При этом многое из совершенно элементарных для нас навыков остаётся практически недоступным для машин.
Да, они способны составлять судебные иски, но не могут приготовить чашку кофе на незнакомой кухне, и даже самостоятельно спросить «А почему?..» — всё то, что с легкостью даётся даже маленьким детям. ИИ может достигать впечатляющих результатов в выполнении определённой узкой задачи, но не автономен в своём обучении, неспособен попробовать и найти нечто новое.
По мнению профессора психологии из Калифорнийского университета в Беркли Элисон Гопник, принципиальная разница состоит в подходе к усвоению новой информации. Современные нейросети требуют обработки гигантских объёмов данных, к тому же заранее упорядоченных и размеченных живыми людьми. Дети способны обойтись куда меньшим количеством примеров и действуют не грубой статистикой — просто они любопытны! Иначе говоря, малыши постоянно выдвигают различные гипотезы об окружающем мире и проверяют их на опыте, методом проб и ошибок.
В последние годы, осознав все эти проблемы, разработчики пробуют реализовать различные аспекты такого «детского» ИИ. Однако подобные проекты остаются на периферии развития отрасли и даже не имеют общепринятого обозначения. Их называют и «обучением на протяжении всё жизни» (Life-Long Learning), и «обучением без задачи» (No-Task Learning), и т.п.
Проводятся даже соревнования «Роботов с открытым автономным обучением» (Robot open-Ended Autonomous Learning, REAL), которые должны формировать новые навыки самостоятельно, «на основе таких механизмов как любопытство, обучение без подкрепления, самостоятельно поставленных целей». Но и эти проекты нельзя назвать мейнстримом.
Проблема в том, что всем сегодняшним парадигмам обучения не хватает некоторых ключевых особенностей, которые людям позволяют обучаться в «свободном» режиме, в открытой среде и без заранее определённого внешнего вознаграждения. В самом деле, ребёнку не нужно никаких понуканий и поощрений для того, чтобы он складывал кубики и обнаруживал, что одна конструкция устойчивее другой. Он направляется внутренним интересом. И этот механизм — первое, чего недостаёт современному ИИ.
«Природное» любопытство человека связано с работой его внутренних систем вознаграждения. Они «срабатывают» каждый раз, когда в мозге появляются новые потенциально полезные связи, соответствующие новым концепциям или ассоциациям между уже знакомыми понятиями. Кибернетические нейросети же не оперируют концепциями, им важна лишь статистика событий.
Иными словами, когда ребёнок видит перед собой кубик, он может даже не знать, как именно этот предмет называется, и сколько их вокруг, но уже формирует целостный образ. Если же малыш ставит один кубик на другой, и тот не падает с высоты, у ребёнка интуитивно формируется новая концепция — «опора». В мозгу образуются ассоциативные связи, вырабатывается дофамин и возникает приятное чувство — естественное подкрепление познавательного поведения у человека.
В отличие от нас, нейросети в их традиционном виде лишены такого механизма положительной обратной связи. Они могут лишь корректировать неправильные результаты, если их работа не даёт нужного выхода. Таким образом, создание «детского», самообучающегося агента требует реализации двух ключевых аспектов: способности оперировать связями для создания и изменения целостных концептов и любопытства. На сегодня усилия многих разработчиков устремлены именно к этому.
Так, несколько лет назад учёные из того же Калифорнийского университета в Беркли представили ИИ, осваивающий игру Super Mario «из чистого интереса», без вознаграждения в виде игровых очков. Модель во многом подражает обучению человека: она старается как можно точнее предсказывать изменения среды, связанные с теми или иными действиями, поэтому стремится совершать такие действия, которые дают ещё незнакомый ей результат.
Впрочем, без возможности оперировать концепциями даже «искусственное любопытство» не даст нужного эффекта. Ряд инженеров считает, что для этого необходимо использовать совершенно иную парадигму построения нейросети, применяя импульсные нейроны, более близкие к физиологии реальных клеток человеческого мозга.
Дело в том, что импульсный нейрон накапливает входящие сигналы, и если заряд превышает определённый уровень, то порог активации, выдаёт сигнал следующим нейронам. Его срабатывание имеет определённые рамки времени: чтобы сигнал прошёл дальше по цепочке, заряды должны скопиться в течение определенного периода, за которое нейрон не успеет «релаксировать», растеряв это возбуждение. Легко заметить, что нейроны современных искусственных сетей обычно устроены иначе.
Они оперируют информацией в форме действительных чисел, поэтому их срабатывание не зависит от времени: входные значения перемножаются по мере поступления, сразу передавая сигнал на следующий слой. Такая нейросеть формирует непрерывный поток информации от первого слоя до последнего. Но если реализовать её в рамках импульсной архитектуры, всё меняется — она позволяет создавать ансамбли нейронов со скоординированной активностью. Согласно гипотезе, которую связывают с работами крупного канадского нейрофизиолога Дональда Хебба, именно такие структуры являются нейронными коррелятами различных концепций и представлений в нашем мозге.
Проще говоря, клетки словно «спеваются» в новых ансамблях. Допустим, сеть включает сто нейронов, но если активировать некоторый процент из них, они «загораются» все вместе. Весь такой ансамбль соответствует целостному образу, концепции, которая актуализируется из памяти и какое-то время продолжает «пульсировать», сохраняясь активной. При этом каждый отдельный нейрон может входить в целый набор ансамблей, соответствующих разным связанным друг с другом концепциям.
В настоящее время ряд научно-инженерных команд пытается реализовать описанные выше идеи. Существуют экспериментальные системы на базе импульсных нейронных сетей, которые образуют связи-ансамбли, соответствующие разным представлениям. Обучаясь, они формируют новые группы и ассоциации между ними.
Целью подобных разработок является создание программы, которая продемонстрирует способности, недоступные существующим системам ИИ. По задумке, это должны быть навыки, знакомые трёхлетнему ребёнку: следование простым командам («влево-вправо»), понимание предметных («часть-целое»), логических («если-то») пространственных («над», «под», «сзади») и временных («до», «после», «потом») отношений, понимание местоимений и времён и т.д.
Источником неутомимого любопытства таких моделей выступает механизм, который в шутку называют «дофаминовым наркоманом». Он вознаграждает систему за образование каждого нового концепта: внутри неё существует источник, который постоянно «пульсирует», заставляя систему продолжать поиски. А успокаивается только в том случае, если получает свою «дозу дофамина». Впрочем, этого хватает ненадолго, и вскоре «наркоман» снова требует своё, запуская бесконечный поиск новизны.
Тут можно отметить потенциальную опасность, подстерегающую такую систему. С нею столкнулись и разработчики агента, играющего в Super Mario ради того, чтобы находить труднопредсказуемые ситуации. Работая с этой моделью, авторы установили, что она быстро обнаруживает в игре максимально стохастические обстоятельства, наподобие подбрасывания монетки, — и навсегда застревает на них, поскольку предсказать результат не может, как не может и перестать «удивляться» этому. Аналогично и «дофаминовый наркоман» может застрять в ситуации, которая заставляет его без конца генерировать новые, простые и бессмысленные связи и концепции.
Подобное происходит и с маленькими детьми, которые, например, постоянно норовят «залипнуть» в телевизор. Впрочем, избежать такого положения вполне возможно, если учитывать контекст происходящего. Новые концепты, возникающие в тех же старых обстоятельствах, должны «обесцениваться» и не давать такого же «дофаминового прилива». Это создаёт у системы нечто вроде скуки от однообразия происходящего и стимулирует поиски действительно нового.
Выпустить такого любопытствующего агента в большой открытый мир для автономного обучения ещё невозможно, поэтому пока работать с ним приходится «вручную», давая образы и связанные с ними фразы-фонемы, которые система может ассоциировать друг с другом. Однако в будущем подобные модели можно будет отправить в собственную виртуальную вселенную, где они смогут действовать более или менее самостоятельно. В таком упрощенном пространстве модель-«ребёнок» сможет перемещаться сама и перемещать отдельные объекты, удовлетворяя своё любопытство и обучаясь, пока не станет — если не взрослым человеком, то хотя бы подобием реального малыша-трёхлетки.
IQ
Авторы текста: Роман Фишман, Даниил Кузнецов
В подписке — дайджест статей и видеолекций, анонсы мероприятий, данные исследований. Обещаем, что будем бережно относиться к вашему времени и присылать материалы раз в месяц.
Спасибо за подписку!
Что-то пошло не так!