Международная группа исследователей совместно с учеными департамента анализа данных и искусственного интеллекта НИУ ВШЭ помогли полицейским разработать информационную систему, которая позволяет бороться с современной торговлей людьми.
На Западе этот вид преступлений называют human trafficking или просто «трафикинг» — то есть незаконное перемещение людей с целью их последующей эксплуатации. В России чаще используют словосочетание «торговля людьми». На сегодняшний день это самая быстрорастущая криминальная индустрия в мире. Так, по данным ООН, в 2004 году ее прирост достигал 9 млрд долларов. В Европе жертвами «трафикинга» чаще всего становятся женщины и девушки из Украины, Молдовы, Болгарии, Румынии, Венгрии, которых вывозят в другие страны для принудительного занятия проституцией. Ежегодно с этой целью перемещается до двух миллионов женщин.
Полиция Амстердама (в Голландии проблема «трафикинга» стоит весьма остро) поставила задачу разработать программный продукт, который мог бы автоматически систематизировать тысячи полицейских отчетов, отбирая те, что имеют отношение к торговле людьми. Система должна была не просто отбирать подозрительные случаи, а находить закономерности, устанавливать круг людей, возможно причастных к преступному бизнесу, то есть обнаруживать и идентифицировать потенциальных подозреваемых.
Ведущими разработчиками продукта являются сотрудник полиции Паул Эльцинга (его должность не раскрывается) и, на тот момент, исследователь католического университета Лёвена Йонас Пульманс, а также научный соруководитель проекта профессор Гидо Дедене. По приглашению Гидо и Йонаса, в 2011 года к работе подключились российские математики из департамента анализа данных и искусственного интеллекта НИУ ВШЭ, в частности, профессор Сергей Кузнецов и его коллеги — доценты Дмитрий Игнатов и Алексей Незнанов.
«Главной идеей было создание хорошей системы анализа и визуализации данных полицейских отчетов, — рассказал Дмитрий Игнатов. — В качестве такого средства как нельзя лучше подходит анализ формальных понятий». Этот метод был предложен в 80-х годах прошлого века немецким математиком и философом Рудольфом Вилле. Анализ формальных понятий позволяет визуализировать объектно-признаковые зависимости путем построения так называемых решеток формальных понятий или решеток Галуа. Основная математическая идея заключается в возможности построения полной решётки по любому бинарному отношению и математическому описанию понятия в виде пары объекты-признаки. В данном случае объекты — это отчеты, а признаки — информация, содержащаяся в них, например ключевые слова, даты, упоминаемые люди.
«До этого мы никогда с полицейскими не сотрудничали и никого не ловили, но зато анализировали данные, например, текстовые, — рассказал Дмитрий Игнатов. — С помощью анализа формальных понятий мы искали документы-дубликаты в рамках гранта конкурса «Интернет-математика» компании «Яндекс». Мои коллеги ранее использовали его для предсказания токсических свойств химических соединений. Если данные переведены в объектно-признаковую форму (документы и их признаки, преступники и их признаки), мы все равно имеем дело с объектно-признаковой таблицей данных».
В ходе работы специалисты проанализировали порядка семидесяти тысяч полицейских отчетов, составленных с 2008 года. В основном это были отчеты патрульных полицейских, проводивших осмотр автотранспорта или патрулировавших улицы Амстердама. Лишь примерно в тысяче случаев полицейским было известно, что речь действительно идет о лицах, имеющих отношение к торговле людьми. Например, обычная запись в полицейском отчете выглядела так: «Ночь, 23 марта 2008 года, в районе Wallen (территория, где проститутки оказывают услуги) остановлен автомобиль «Мерседес». На заднем сидении замечены две хорошо одетые молодые девушки. Обе не говорили ни по-английски, ни по-голландски. Документы девушек находились у водителя, который объяснял, что в Нидерланды они приехали на каникулы».
Очень сложно установить причастность к торговле людьми путем разрозненных наблюдений на улице и осмотра автомобилей, отмечали полицейские. Но с их помощью ученые определили несколько индикаторов — признаков, позволяющих судить о причастности фигурантов отчета к human trafficking.
Таблица 1. Пример данных полицейских отчетов
Проституция | Сутенер | Насилие | Дорогой автомобиль | Большая сумма денег | Болгары | |
Отчет 1: 13 июня 2007 | x | x | x | |||
Отчет 2: 26 июля 2008 | x | x | x | |||
Отчет 3: 28 сентября 2008 | x | x | x | x | x | |
Отчет 4: 5 февраля 2009 | x | |||||
Отчет 5: 22 февраля 2009 | x | x |
Все индикаторы (их можно выявить в тексте автоматически) разделили на группы:
Также индикаторы подразделялись на ранние и поздние, то есть возможные и явные, сильные признаки соответственно.
Выделенные признаки заносились в таблицу. Глядя на нее, можно было определить, сколько подозрительных признаков есть в том или ином отчете. Например, в отчете №1 упоминались болгары (по данным полиции, выходцы из этой страны часто оказываются причастны к «трафикингу»). Также полицейские при составлении отчета перечислили такие индикаторы как «дорогая машина», «проблемы с документами», район, где работают проститутки.
Отчет, содержащий слова-«индикаторы», требовал более пристального внимания правоохранительных органов. Чтобы обнаружить и идентифицировать лиц, причастных к торговле людьми, полицейские анализировали формальные понятия.
Эта работа проходит в три этапа:
Разработанный инструмент позволил полицейским в интерактивном режиме с помощью таблиц формальных понятий выделить ряд признаков и выявить потенциальных подозреваемых. Например, в число подозреваемых попал гражданин Болгарии, который имел проблемы с документами и крупную сумму наличных денег, а в другой момент времени был замечен в районе «красных фонарей». Таким образом, автоматический анализ отчетов показал где, когда и при каких обстоятельствах были зафиксированы те или иные подозрительные индикаторы.
Далее с помощью разработанной системы были проанализированы и визуализированы в виде диаграммы социальное окружение человека. Программа показала, с какими людьми и при каких обстоятельствах имел дело подозреваемый. То есть, по сути, был очерчен круг лиц возможно причастных к преступной группировке.
Результаты сотрудничества ученых и полицейских были представлены в серии научных статей на ведущих тематических конференциях по майнингу данных и анализу формальных понятий, а также научных журналах. Так в статье «Полуавтоматическое обнаружение знаний: идентификация и профилирование незаконной торговли людьми» (Semi-automated knowledge discovery: identifying and profiling human trafficking), опубликованной в журнале General Systems, подробно рассказывалось про методологию анализа и разбирается шесть случаев, в которых анализ формальных понятий помог обнаружить случаи «трафикинга», установить подозреваемых и целые преступные сети. В результате инициированного расследования преступники попали под стражу, а притоны были закрыты муниципальными властями.
Сейчас в лаборатории Интеллектуальных систем и структурного анализа под руководством профессора Сергея Кузнецова разрабатывается программный продукт FCART, который позволит анализировать массивы текстовой информации средствами анализа формальных понятий. Демо-версия продукта доступна по ссылке.
IQ
В подписке — дайджест статей и видеолекций, анонсы мероприятий, данные исследований. Обещаем, что будем бережно относиться к вашему времени и присылать материалы раз в месяц.
Спасибо за подписку!
Что-то пошло не так!