Проблема: Сегодня по активности в социальных сетях — постам, фотографиям, лайкам, комментариям, хештегам — можно составить полный портрет человека. Например, определить его возраст, пол, национальность, черты личности, электоральные предпочтения и многое другое. Но можно ли по цифровым следам «вычислить» более сложные, многосоставные характеристики — например, успеваемость в школе?
Решение: Да, если использовать методы машинного обучения, большие массивы общедоступных постов учащихся в соцсетях («ВКонтакте» и Twitter) и результаты стандартизированных тестов. Новая модель, созданная учёным из НИУ ВШЭ, предсказывает академические успехи российских школьников с точностью до 94%. Прогноз успеваемости строится на основании характерных слов и особенностей речи. А полученные результаты хорошо коррелируют с баллами ЕГЭ.
Заведующий Лабораторией вычислительных социальных наук Института образования НИУ ВШЭ Иван Смирнов создал компьютерную модель, которая может отличить отличников от двоечников по их постам в социальных сетях. Прогноз академических успехов основан на математическом анализе текстов. Важна лексика (размеры словаря и семантические поля, из которых взяты понятия), используемые знаки и символы, длина слов и постов.
У всех слов есть свой рейтинг (своеобразное «IQ»). Понятия из сферы науки и культуры, английские слова, более длинные слова и посты имеют высокий рейтинг и служат индикатором хорошей успеваемости. Обилие эмодзи, слова или целые фразы, написанные заглавными буквами, лексика из сферы гороскопов, автовождения и службы в армии свидетельствуют о низких оценках в школе. Посты при этом могут быть довольно короткие — вполне информативны даже твиты. Работа поддержана грантом Российского научного фонда (РНФ). Статья об исследовании опубликована в журнале EPJ Data Science.
Зарубежные исследования уже давно продемонстрировали, что по поведению в соцсетях — постам, комментариям, лайкам, особенностям профиля, юзерпикам и размещаемым фотографиям — можно успешно «портретировать» людей. Например, определять их образ жизни, личные качества и индивидуальные особенности, вплоть до уровня психического здоровья пользователя. Ну или легко вычислить социально-демографические характеристики: возраст, пол, национальность, доходы. Здесь в ход идут изображения профиля, хештеги, сообщения в Twitter или посты в Facebook (принадлежит компании Meta, признанной в России экстремистской организацией).
По лайкам в Facebook (принадлежит компании Meta, признанной в России экстремистской организацией) можно установить религиозные и политические взгляды человека, его сексуальную ориентацию, личные качества, степень удовлетворенности жизнью. По комментариям в той же соцсети — уровень агрессивности, а по твитам — депрессию. Тексты блогеров немало говорят об их личностях. Даже картинки и изображения (например, в Instagram (принадлежит компании Meta, признанной в России экстремистской организацией)) — отличный источник для цифровой психометрии.
Но цифровые следы дают богатый материал не только на индивидуальном, но и на агрегированном уровне. Можно, например, вычислить электоральные предпочтения жителей города с помощью данных Google Street View — функции, позволяющей видеть панорамы городских улиц и движущийся по ним транспорт. Тексты цифровых книг помогают судить об уровне субъективного благополучия жителей разных стран.
Однако комплексные, более сложные характеристики, такие как, например, академические успехи, школьная успеваемость, которые зависят от многих факторов, пока исследованы достаточно мало. «В своей новой работе мы попытались предсказать успеваемость учеников школ и вузов по их постам “ВКонтакте” и Twitter. Способность к обучению — очень сложная характеристика человека. На неё влияют не только черты характера, но и психологическое благополучие, например, наличие различных нарушений. Увы, последнее не измеряется в масштабах учебного заведения, в отличие от академических успехов, которые к тому же находятся в открытом доступе», — рассказывает автор исследования Иван Смирнов.
Казалось бы, интуитивно понятно, что если школьник в соцсетях пишет о квантах, теории струн, Ньютоне, Шекспире и Набокове, — он, как минимум, мотивирован к познанию. Наверняка в его электронном дневнике — четвёрки и пятерки. А если подросток делает орфографические ошибки, проявляет в постах интерес к гороскопам и ДТП, перед нами, скорее всего, «середнячок» в учёбе. Но чтобы интуиция не превратилась в когнитивное искажение, всегда лучше доказать её с помощью цифр. Например, можно математически подсчитать, какие слова «умнее».
Однако наиболее важный аспект использования цифровых данных — многие вещи из жизни подростков сложно выяснить с помощью традиционных методов исследования — опросов и интервью. В них немало чувствительных вопросов, от ответов на которые юноши и девушки уклоняются или лгут. Подростки всегда более закрыты, и потому учёным сложнее их изучать. А вот цифровые данные способны их раскрыть, показать доселе неизвестные стороны их жизни.
В исследовании Ивана Смирнова использовалась представительная выборка — данные национального репрезентативного панельного лонгитюда «Траектории в образовании и профессии» (ТРОП) НИУ ВШЭ. Он прослеживает путь 4,4 тысяч учеников школ, участвовавших в мониторинге PISA (Programme for International Student Assessment), в 42 российских регионах. В этом датасете есть и данные об аккаунтах школьников во «ВКонтакте» (их добровольно согласились предоставить 3 483 участника).
«Так как такие данные в сочетании с цифровыми следами сложно получить, то они почти никогда не используются», — говорит Смирнов. Между тем, такой датасет позволяет рассчитывать, что построенная с его помощью модель будет применима и в других контекстах. А полученные результаты можно экстраполировать на остальных учащихся — старшеклассников и студентов младших курсов.
В качестве обучающей выборки использовались посты с открытых страниц «ВКонтакте» — всего 130 575 текстов от 2 468 испытуемых, сдававших в 2012 году тест PISA. Последний позволяет оценить грамотность подростка, а также его умение применять свои знания на практике. В исследование попали только те посты, которые могут видеть все остальные пользователи, и лишь от тех учащихся, которые дали на это информированное согласие.
Важно, что метрикой образовательных результатов выступили баллы по стандартизованным тестам PISA и ЕГЭ. Это дает более объективную картину, чем когда знания учащихся оценивают сами школы (например, просто с помощью оценок).
При тренировке модели из теста PISA в качестве индикатора академической успеваемости брали только результаты по чтению, хотя всего тестов три: по читательской, математической и естественнонаучной грамотности. PISA определяет читательскую грамотность как умение понимать, анализировать и использовать прочитанную информацию. Это базовый навык, который помогает успешно осваивать другие предметы. В мониторинге шесть уровней результатов. Минимальный базовый — уровень 2. Учащиеся, не достигшие его, считаются слабыми. Те, у кого уровни 5 и 6, — сильные ученики.
Машинное обучение «без учителя» с векторным представлением слов осуществлялось на корпусе постов «ВКонтакте» (всего 1,9 млрд слов в корпусе, 2,5 млн уникальных слов). Оно сочеталось с более простой моделью обучения «с учителем», которую тренировали на отдельных постах и учили предсказывать баллы PISA.
Векторное представление слова, или эмбеддинг (от англ. word embedding) — это числовой вектор фиксированного размера, который описывает какие-то признаки слова или их последовательности. Эмбеддинг часто используется для автоматической обработки текстов. В исследовании Смирнова для его реализации использовалась система fastText как довольно удобная для русского языка.
«Мы представляли каждый пост как 300-мерный вектор с помощью усреднения векторных представлений всех его значимых слов, — пишет исследователь. — А уже эти представления постов использовались для обучения модели линейной регрессии умению предсказывать баллы PISA у их авторов».
При этом под предсказанием подразумевается не прогноз на будущее, а корреляция вычисленных и реальных результатов международного мониторинга знаний PISA, в котором участвовали ученики, а также с полученными ими баллами по ЕГЭ (в интернете они доступны в агрегированном уровне, то есть средние баллы ЕГЭ для школы). На подготовительном этапе модель училась предсказывать данные PISA. Но вычисления итоговой модели сверялись уже с результатами ЕГЭ — для выпускников школ и абитуриентов вузов.
Итоговая модель должна была уметь надежно распознать, кем написаны посты: отличниками или двоечниками, то есть, дифференцировать испытуемых по успеваемости. В результате обучения она смогла различать посты, оставленные учениками с хорошей и плохой успеваемостью (уровни 5-6 в тестах PISA и уровни 0-1), с точностью 93,7%. Что касается сопоставимости PISA и ЕГЭ, то хотя эти два теста и различаются, но, согласно исследованиям, полученные баллы по ним существенно коррелируют друг с другом.
«Модель обучалась на PISA, и мы смотрели корреляцию предсказанной и реальной PISA (эти баллы есть в ТРОП), — поясняет исследователь. — С ЕГЭ это сложнее: так как модель ничего не знает про единые экзамены, то она предсказывала по-прежнему PISA. Но если мы предполагаем, что ЕГЭ и PISA измеряют одно и то же, то есть академическую успеваемость, то чем выше предсказанные результаты PISA, тем выше должны быть и результаты ЕГЭ». А то, что модель училась предсказывать одно, а может предсказать и другое, довольно интересно само по себе, подчеркивает учёный.
Однако это тоже необходимо было проверить, поэтому затем модель применили к 914 российским школам (в Санкт-Петербурге, Самаре и Томске; почти 39 тысяч пользователей, оставивших 1,1 млн постов) и сотне крупнейших российских университетов (115,8 тысяч человек, 6,5 млн постов), чтобы определить успеваемость их учащихся.
Берем все школы нескольких городов (601 школа в Санкт-Петербурге, 214 в Самаре и 99 в Томске) и смотрим профили пользователей «ВКонтакте», которые указали, что учатся там. «Чистим» данные (не берём в расчет профили тех, кто указал несколько школ или у кого нет друзей в тех же школах).
Остальные посты загружаем (это возможно благодаря API — интерфейсу прикладного программирования — «ВКонтакте») и применяем к ним созданную модель, чтобы предсказать успеваемость авторов записей.
Полученные образовательные результаты ребят усредняем — и понимаем, каковы академические успехи их школ в целом.
Эти цифры сравниваем с баллами ЕГЭ выпускников этих школ. Смотрим, соответствуют ли достижения, вычисленные по соцсетям, рейтингу школ на основе результатов единых экзаменов.
Затем та же процедура повторяется для определения академических успехов студентов вузов (МГУ был исключен из выборки, так как во «ВКонтакте» было много фейковых профилей и пр.)
Выяснилось, что «предсказанная успеваемость тесно связана с баллами ЕГЭ, — делает вывод исследователь. — Коэффициент корреляции составляет от 0,49 до 0,6. А в случае университетов, когда сравнивались предсказываемая успеваемость и баллы ЕГЭ абитуриентов (информация есть в проекте ВШЭ Мониторинг качества приема в вузы), то по итогам здесь также получилась сильная связь. Коэффициент корреляции 0,83, то есть существенно выше, чем для школ, потому что больше данных».
Но переносится ли модель на другие социальные сети? «Я проверял, что будет, если вместо постов «ВКонтакте» давать в модели твиты, написанные теми же пользователями, — рассказывает Смирнов. — Получилось, что качество модели существенно не падает». Но поскольку достаточное количество твиттер-аккаунтов было доступно только для университетского датасета (2836), анализ делался только на нём.
Важно, что модель успешно работала на датасетах разных соцсетей как «ВКонтакте», так и в Twitter, то есть сохраняла эффективность в разных условиях. Это значит, что применение её может быть широким. Кроме того, модель можно использовать для предсказания очень разных характеристик: от прогресса в учебных достижениях учащихся до уровня доходов и степени депрессии.
Работа опиралась на открытый анализ словаря (пример визуализации его результатов можно посмотреть здесь ). В принципе возможны два подхода, поясняет исследователь: «В одном случае мы решаем, что есть, наверное, такие маркеры успеваемости, как слова, связанные с учебой, и составляем их список, а потом смотрим, как употребление этих слов связано с успеваемостью. Но здесь используется альтернативный подход, открытый анализ словаря, когда мы вообще не делаем никаких предположений и все результаты берутся только из данных». При этом использовалось не дискретное, а непрерывное представление знаков и символов. У него немало преимуществ — например, возможность подсчитать условное «IQ» даже для тех слов, которые не представлены в тренировочном датасете.
Исследователь также смотрел, какие слова служат предикторами высоких и средних достижений. «За счет использования векторных представлений слов я могу для любого слова получить коэффициент, — говорит Смирнов. — Чем он выше, тем, по мнению модели, это слово больше свидетельствует о высокой успеваемости».
Для предсказания результатов учащихся можно применять модель TF-IDF (от англ. Term Frequency и Inverse Document Frequency), которую обычно используют для оценки веса слова в контексте документа и корпуса документов. Вес слова пропорционален частоте его употребления в документе и обратно пропорционален частоте его употребления во всех документах коллекции. Однако итоговая модель данного исследования работала лучше.
Предсказательная сила модели зависела от числа публично доступных постов у пользователей. Если был доступен, к примеру, только один пост, то предсказательная сила модели падала (0,237). А для участников исследования с 20 постами она составляла 0,541. В целом предсказательную силу разных моделей можно посмотреть здесь. В результате применения TF-IDF, например,корреляция между предсказанными и реальными результатами оказалась 0,284.
«Я просто рассортировал все слова по этому коэффициенту и привожу их место в рейтинге, — комментирует исследователь. — Например, для слова Бродский там пишется 1,49%, значит, условное “IQ” этого слова выше, чем у 98,51% слов. Модель на обучающей выборке понимает, что какие-то похожие слова используются чаще среди наиболее мотивированных к учёбе ребят, и при этом она знает, что слово Бродский похоже на эти слова, поэтому предполагает, что у него будет похожий “IQ”». В этом основная сила подхода: если бы модель полагалась только на те слова, которые были в тренировочной выборке, она бы работала гораздо хуже, потому что таких слов было бы мало, и это не позволило бы выявить закономерности.
Сначала исследователь выделил общие особенности текстов постов в связи с успеваемостью их авторов (рис. 1). Выяснилось, что отрицательно связаны с успеваемостью сплошные прописные буквы (-0,08), эмодзи (-0,06), а также восклицания (-0,04). А вот использование латиницы, средняя длина поста, длина слов и размер словаря, наоборот, имеют положительную связь с успехами в школе (от 0,07, до и 0,16 соответственно).
Также подтвердилось, что у учащихся с разной успеваемостью — разный лексикон. Исследователь рассмотрел итоговую модель, отобрав 400 слов с самым высокими и самым низкими значениями коэффициентов, которые появлялись по меньшей мере пять раз в тренировочном корпусе. Были выделены и визуализированы тематические кластеры (рис. 2).
Кластеры с самыми высокими результатами (выделены оранжевым) включают:
английские слова (above, saying, yours, must);
слова, относящиеся к литературе (Брэдбери, «Фаренгейт», Оруэлл, Хаксли, Фолкнер, Набоков, Бродский, Камю, Манн);
понятия, связанные с чтением (читать, публиковать, книга, том);
термины и имена из сферы физики (Вселенная, квант, теория, Эйнштейн, Ньютон, Хокинг);
слова, относящиеся к мыслительным процессам (размышление, запоминание).
Кластеры с низкими показателями (выделены зеленым цветом) включают слова с ошибками, названия популярных компьютерных игр, понятия, связанные с военной службой (армия, присяга и пр.), слова из области гороскопов (овен, стрелец) и понятия, связанные с вождением и ДТП (столкновение, ГАИ, колеса, тюнинг).
Иван Смирнов посчитал коэффициенты для всех 2,5 миллионов слов векторной модели и сделал их доступными для дальнейшего изучения. Любопытно, что даже слова, которые редко встречаются в тренировочном датасете, могут предсказывать успеваемость. Например, даже если имя Ньют (так зовут персонажа вселенной «Гарри Поттера», Ньюта Саламандера) никогда не появляется в учебном наборе данных, модель может приписать более высокий рейтинг содержащим его постам. Это произойдет, если модель выучит, что слова из поттерианы маркируют студентов с высокими достижениями, а благодаря обучению «без учителя» вынесет информацию, что Ньют принадлежит к этой категории (то есть слово близко к другим понятиям из поттерианы в векторном пространстве).
Предложенную модель можно применять к самым разным областям — литературе, еде, политике и пр. Например, исследователям образования интересно понять, что отличает успешные школы школы от средних. Но если, скажем, смотреть на особенности школ с высокими баллами ЕГЭ, это ничего не даёт, потому что понятно, что в этих школах учатся более подготовленные и сильные учащиеся.
«Исследователям хорошо бы посмотреть на школы, которые дают наибольший прирост результатов, — поясняет Иван Смирнов. — И теоретически наш метод может использоваться для того, чтобы оценить этот прирост и потом посмотреть на уровне школ на связанные с ним факторы». В целом, так как предложенная модель «не зависит от языка, источника текстов или искомых переменных, она может быть применена к широкому разнообразию данных», говорит исследователь.
Важно отметить, что такого представительного исследования, которое бы «сверяло» академические данные об учениках и их активность в соцсетях, в России ещё не было. Но подступы к таким работам уже были — у того же Ивана Смирнова. Три года назад он показал, что подписки школьников на те или иные паблики во «ВКонтакте» соотносятся не только с их интересами, но и с успеваемостью.
Исследователь построил модель, которая позволяет определить результаты PISA на основе подписок учеников. Как тогда выяснилось, у сильных и слабых учеников — разные интересы, что отражается и в подписках. Так, академически успешные школьники чаще заходят на странички о науке, технологиях и культуре, а плохо успевающим ребятам ближе сетевой юмор и гороскопы. Как прокомментировал тогда исследователь, сильные ученики «и в интернете выбирают что-то развивающее, а не развлекающее».
Анализа цифровых следов крайне популярен, и подобные исследования всегда вызывают огромный интерес, но главный вопрос, касающийся их проведения — этический — так и не решен. Насколько морально приемлемо использовать данные из соцсетей? Нужно взвесить все «за» и «против» и решить, что перешивает, считает автор работы.
Хотя вся информация публична, есть важные обстоятельства, которые можно положить на чашу «против». «Например, не все пользователи могут понимать, что информация о них доступна, не все пользователи владеют техническими навыками, чтобы скачивать информацию, что создает неравенство, — рассуждает Иван Смирнов. — Ни у кого не возникает вопросов по поводу просмотра чужого профиля, потому что это может сделать каждый, но скачивать информацию каждый может только теоретически, но не практически».
«Вероятно, не все люди задумываются о том, что когда они заходят на чью-то страничку «ВКонтакте», то они делают то же самое, что исследователи или частные компании: отправляют запрос на сервера соцсети и сохраняют у себя на компьютере информацию о человеке, — рассуждает учёный. — Просто они делают это не посредством собственного скрипта, как мы, а с помощью уже готовой программы — браузера». Но технически эти действия идентичны — различия только в масштабах. Хотя просмотреть странички нескольких тысяч человек вполне можно и без всяких скриптов.
Есть и обстоятельства на чаше весов «за». «В отличие от частных компаний, а некоторые из них скачивают весь «ВКонтакте» каждый день, наша деятельность носит некоммерческий и публичный характер, — продолжает исследователь. — Мы стараемся получить новое полезное знание о мире, и всё, что мы делаем, доступно публично».
И если пользователь, например, прочитал материал на IQ.HSE и разозлился, что за ним «следят», это значит, что исследование оказалось полезным для него. «Теперь он знает, что его данные из «ВКонтакте» могут использоваться, пойдёт и скроет их настройками приватности, и доступ к ней не получим не только мы, исследователи, но и многие злонамеренные агенты», — заключает Иван Смирнов.
Впрочем, само новое исследование Ивана Смирнова точно не нарушает никаких моральных норм и личных границ. Во-первых, в нём использовались только общедоступные посты. Во-вторых, администрация «ВКонтакте» специально предупреждает, что «информация на сайте, размещаемая пользователем о себе, может становиться доступной для других пользователей сайта и пользователей Интернета».
«Наши исследования проходили оценку этической комиссии, принимались в ведущие журналы, то есть фактически сейчас это считается нормой», — утверждает Иван Смирнов.
К тому же методы, использованные в исследовании, не предназначены для работы на индивидуальном уровне. «Наши выводы [в ряде недавних проектов] носят общий характер: родители чаще упоминают сыновей, чем дочерей, в соцсетях, учащиеся школ со схожей успеваемостью чаще дружат между собой, — рассказывает учёный. — И когда я говорю о том, что мы можем использовать этот метод, чтобы отследить прогресс учащихся, я не имею в виду — на уровне одного человека».
IQ
В подписке — дайджест статей и видеолекций, анонсы мероприятий, данные исследований. Обещаем, что будем бережно относиться к вашему времени и присылать материалы раз в месяц.
Спасибо за подписку!
Что-то пошло не так!