Top.Mail.Ru
Карьера
Бизнес
Жизнь
Тренды
Изображение создано при помощи модели Шедеврум
Изображение создано при помощи модели Шедеврум

Насколько безопасен ИИ?

Есть немало нюансов

Большие языковые модели стали фундаментом новой ИИ-инфраструктуры. Их мощь, растущая доступность, а также переход от поисковиков и офисных пакетов до систем для принятия решений и разработки программного обеспечения – делают вопросы их безопасности ключевым фактором мировой кибербезопасности и доверия. Уязвимость такой модели может иметь катастрофические последствия в современном мире, отмечает Игорь Мищенко в четвертой статье цикла его работ специально для IQ Media. Первая статья автора – Риски ИИ, о которых не знают пользователи. Вторая – Россия – лидер в работе искусственного интеллекта. Третья – Многозначен ли искусственный интеллект.

name

Игорь Мищенко

Главный эксперт, частное учреждение «Атомстандарт»

Уязвимость на фоне мощи

Риски безопасности большой языковой модели масштабны из-за их природы, так как искусственный интеллект способен понимать, генерировать информацию и манипулировать ею на человеческом уровне. Это делает его мощным инструментом, который можно направить во вред, причем такую работу будет невозможно отследить или предсказать. Могут раскрыться конфиденциальные данные пользователей, а открытые модели и их функции значительно снижают барьер для злоумышленников, желающих экспериментировать с использованием уязвимостей.

Мошенники активно выявляют и используют ряд непреднамеренных, но серьезных уязвимостей для своих целей. Например, есть техники, которые позволяют обойти ограничения, встроенные в программу разработчиком, благодаря специальным запросам и кодировкам. Главным риском является то, что из-за них может быть создан неприемлемый для людей контент.

Есть программы, которые могут воспроизводить и запоминать конфиденциальную информацию, что, несомненно, нарушает границы приватности и может способствовать раскрытию секретной информации.

Некоторые модели копируют и усиливают социальные, культурные и исторические предубеждения, присутствующие в их обучающих данных. Это приводит к созданию дискриминирующего, оскорбительного контента, который может оскорбить чувства людей из-за их мировоззрения. (Вследствие этого авторитет разработчиков, разумеется, снижается).

Какие-то программы могут внести изменения в тексты или изображения, что, в свою очередь, приводит к тому, что они будут расцениваться как вредоносные, поскольку в них есть некие изменения, о которых сам человек мог даже не знать.

Как говорилось ранее, искусственный интеллект может пародировать разум человека. Однако кроме того, программа, чтобы показать свою полезность может соглашаться с любым утверждением пользователя, даже если оно ошибочное, и генерировать для него неверную информацию. К понятию антропоморфизма относится наделение неодушевленной модели человеческим сознанием, что приводит к чрезмерному доверию и попыткам манипулировать ею, как человеком. 

«Троянские» паттерны

Кроме непреднамеренных уязвимостей моделей, могут быть и специально созданные уязвимости или функции, скрытые от пользователя.

В качестве примера можно привести «Троянские» паттерны – обучение модели активированию скрытого поведения (например, сбора данных, генерации вредоносного контента) при появлении в программе специфической, редкой последовательности символов. И из-за скрытой работы, непрозрачности и сложности моделей проблема может быть крайне трудно обнаружимой обычными методами тестирования безопасности. Для того, чтобы ее найти, требуется специальный метод.

Добавим, что разведка или военные ведомства могут потребовать передачи информации для удаленного мониторинга, сбора разведданных или активации скрытых функций у всех пользователей в определенных целях государственного заказа. Разработчик же может внедрить «бэкдор» [скрытый метод обхода стандартных мер безопасности] для кражи конфиденциальных данных конкурентов и их идей.

Пока что нет официально подтвержденных и неоспоримых доказательств существования преднамеренно внедренных лазеек в основных программах. Сообщество исследователей безопасности ИИ сосредоточено на поиске и исправлении непреднамеренно созданных уязвимостей. Ведутся академические исследования опций внедрения и обнаружения «тренировочных троянов» в программы.

«Парадокс доверия»

Полная верификация отсутствия «бэкдоров» в закрытой или даже открытой, но сверхсложной модели практически невозможна, что создает «парадокс доверия».

Невозможность рассмотрения работы моделей западных компаний используется как аргумент разных стран, включая Россию и Китай, для обоснования необходимости национальных или суверенных ИИ-решений и жесткого регулирования иностранных моделей. Страны Запада в ответ выражают аналогичные опасения относительно моделей, разработанных в КНР или России. Но отсутствие доказательств наличия специальных лазеек не равно доказательству их отсутствия в глазах скептиков.

На сегодня основная угроза безопасности программ ИИ исходит от непреднамеренных, но серьезных уязвимостей – таких, как утечка данных, предвзятость и пр. Стоит обратить внимание на злонамеренное использование моделей в плане генерации фейков и дезинформации. Сейчас эти риски активно исследуются, и разработчики постоянно выпускают специальные обновления и улучшают методы безопасности.

Однако риск внедрения бэкдоров или скрытых функций остается значимым фактором, особенно в контексте международного доверия. Ведь техническая возможность этого все же существует. Отсутствие открытости, отслеживания работы и конкурирующие интересы государств превращают эту возможную угрозу в реальный аргумент в пользу цифрового суверенитета, создания программ и ужесточения национального регулирования. Хотя риск и не был доказан и не проявлялся в реальных программах, он все же продолжает отбрасывать тень недоверия на глобальное распространение ИИ-технологий.

Редактировала Наталия Платонова