Исследователи из Центра искусственного интеллекта и факультета компьютерных наук НИУ ВШЭ представили новый алгоритм обнаружения структурных изменений во временных рядах. Метод использует нейронную сеть для сравнения различных отрезков ряда, что позволяет быстрее выявлять изменения в его поведении. Результаты работы были представлены на 26-й Международной конференции по искусственному интеллекту и статистике — AISTATS (А*).
Исследование поддержано грантом для исследовательских центров в области искусственного интеллекта, предоставленного Аналитическим центром при Правительстве РФ.
В современных задачах машинного обучения нередко возникает необходимость обработки временных рядов, то есть последовательностей, упорядоченных по времени наблюдений. При этом данные могут быть различной природы: от числа заболевших штаммом COVID-19 и показателей мониторинга пациентов, проходящих реабилитацию после инсульта, до почасового количества постов в социальных сетях на конкретную тему и показаний датчиков сейсмической активности.
Частота, с которой приходят новые данные при таких наблюдениях, может значительно отличаться. Но есть и общая черта: резкие изменения в поведении этих временных рядов могут сигнализировать о важном событии — начале новой волны пандемии, необходимости оказания срочной помощи пациенту, землетрясении и пр. Своевременное их обнаружение позволит предотвратить или хотя бы смягчить нежелательные последствия.
Момент времени, когда данные перестают соответствовать ожидаемому образцу или тренду, называется разладкой. Стоит отметить, что не всегда важные структурные изменения в последовательности наблюдений заметны для человека. Это приводит к необходимости разработки автоматических методов их обнаружения.
ISTOCK
Задача обнаружения разладки давно стала одной из классических в математической статистике, поэтому исследователи во всём мире работают над созданием эффективных методов анализа данных и выявления структурных изменений. Один из таких методов — алгоритм обнаружения разладки во временных рядах — разработали исследователи факультета компьютерных наук НИУ ВШЭ Никита Пучкин и Валерия Щербакова.
Существует несколько способов обнаружения разладки во временных рядах, и они могут быть разделены на группы в зависимости от того, какое именно структурное изменение нужно обнаружить. Некоторые методы сосредоточены на изменении средних значений, другие — на изменении тренда или на волатильности данных (меры того, насколько данные меняются со временем). Также есть методы, которые могут обнаруживать разладки произвольного вида, то есть непараметрические методы. Это особенно полезно, когда последствия события ещё не проявились полностью, тренд и волатильность временного ряда остаются прежними, но происходят изменения в других характеристиках данных. Понимание этих методов помогает исследователям и аналитикам более точно определить разладку во временных рядах и принять соответствующие меры.
Учёные отмечают, что в ряде исследований непараметрические методы обнаружения разладки приводятся без теоретических оценок скорости выявления изменений в последовательности наблюдений, вследствие чего возникают вопросы к надёжности результатов. Поэтому исследователями Центра искусственного интеллекта НИУ ВШЭ была поставлена амбициозная задача разработать метод, который, с одной стороны, был бы практичен, а с другой — имел бы чёткое теоретическое обоснование.
В основе нашего алгоритма лежит простая идея: раз поведение временного ряда изменилось, наблюдения до и после момента разладки можно отличить друг от друга. Для этого мы используем нейронную сеть, оптимизируя её веса таким образом, чтобы контрастность между частями выборки до и после разладки была наиболее ярко выражена. Поэтому метод получился универсальным, а главное, эффективность его работы подтверждается математически.
Никита Пучкин
Научный сотрудник Международной лаборатории стохастических алгоритмов и анализа многомерных данных Института искусственного интеллекта и цифровых наук ФКН НИУ ВШЭ
Для проверки качества работы алгоритма учёные провели ряд тестов различной сложности, сравнив его с несколькими популярными непараметрическими методами обнаружения разладки. В ходе испытаний учитывалось, насколько часто алгоритм ошибается, выдавая ложные сигналы, и сколько времени ему требуется для выявления изменений. В результате алгоритм показал многообещающие результаты, обнаруживая важные события или изменения в данных в среднем на 30% быстрее конкурентов.
В подписке — дайджест статей и видеолекций, анонсы мероприятий, данные исследований. Обещаем, что будем бережно относиться к вашему времени и присылать материалы раз в месяц.
Спасибо за подписку!
Что-то пошло не так!