Искусственный интеллект может предсказывать успеваемость российских школьников по постам «ВКонтакте»

В России создана компьютерная модель, с помощью которой можно отличить отличников от других учеников на основе их публикаций в социальных сетях.
Иван Смирнов, ведущий научный сотрудник лаборатории вычислительных социальных наук Института образования НИУ ВШЭ, создал компьютерную модель, которая может отличить учеников с высокой успеваемостью на основе их публикаций в соцсетях.
Модель прогнозирования использует математический текстовый анализ, который регистрирует словарный запас пользователей (его диапазон и семантические поля, из которых берутся концепции), символы, длину сообщения и слов в постах.
Каждое слово в анализе имеет свой рейтинг. Обсуждение научных и культурных тем, использование английских слов, а также более длинные слова и сообщения имеют большое значение и служат показателями хорошей успеваемости.
Обилие смайликов, слов или целых фраз, написанных заглавными буквами, а также обсуждение тем гороскопов, вождения и военной службы, указывает на более низкие оценки в школе.
В качестве обучающей выборки использовались сообщения с общедоступных страниц «ВКонтакте» — в общей сложности 130 575 сообщений от 2468 людей, прошедших тест PISA в 2012 году.
Тест позволил исследователю оценить академические способности студента, а также его способность показывать свои знания на практике. В исследование были включены только общедоступные сообщения «ВКонтакте» от согласившихся участников.
Были выделены общие текстовые особенности постов по отношению к успеваемости их авторов. Было обнаружено, что использование заглавных слов (-0,08), смайликов (-0,06) и восклицаний (-0,04) отрицательно коррелирует с успеваемостью.
С другой стороны, использование латинских символов, средняя длина сообщения и слова, размер словарного запаса и энтропия пользовательских текстов положительно коррелируют с академической успеваемостью (от 0,07 до 0,16 соответственно).

Также было подтверждено, что учащиеся с разным уровнем успеваемости имеют разный словарный запас. Ученики с высоким уровнем успеваемости использовали:
Английские слова;
Слова, относящиеся к литературе (Брэдбери, Фаренгейт, Оруэлл, Хаксли, Фолкнер, Набоков, Бродский, Камю, Манн);
Понятия, связанные с чтением (прочитать, опубликовать, книгу, том);
Термины и названия, относящиеся к физике (Вселенная, квантовая, теория, Эйнштейн, Ньютон, Хокинг);
Слова, относящиеся к мыслительным процессам (мышление, запоминание).
Ученики с низкими баллами использовали слова с ошибками, названия популярных компьютерных игр, понятия, относящиеся к военной службе (армия, присяга и т. д.), термины гороскопа (Овен, Стрелец) и слова, связанные с вождением и автомобильными авариями (столкновение , ГАИ, диски, тюнинг).
Исследование было поддержано грантом Российского научного фонда.
Источник: hightech.fm