SEEL – крупный международный форум, где ученые, студенты, преподаватели и другие представители образовательной среды встречаются, чтобы обсудить инновационные идеи, подходы, технологии, практики и системы в новых областях интеллектуального образования. Так, значительное внимание на конференции уделяется онланй-формату в образовании и тому, как больше адаптировать систему под обучающегося.
В этом году конференция прошла в шестой раз, Университет ИТМО на ней представлял студент второго курса бакалавриата Святослав Орешин, выступивший в секции «Умное обучение» с проектом по предсказанию результативности участников онлайн-курсов и ставший победителем конкурса докладов. Процесс подачи документов для участия в конференции начинается задолго до самого форума – это связано с высокими требованиями, которые предъявляются к участникам. Так, чтобы участник мог выступить с докладом, он должен опубликовать научную статью в журнале, индексирующимся в Scopus.
«В Университете ИМТО я изучаю компьютерные образовательные технологии, поэтому тема секции мне близка. Наибольший интерес для меня представляют математика, искусственный интеллект и машинное обучение – в проекте, который я представил, удалось объединить все эти области. Проект направлен на предсказывание результативности слушателей онлайн-курсов. В моей секции доклады представляли шесть человек, включая меня, однако все мои конкуренты были PhD-студентами. Перед финальным этапом конкурса мы проходили отбор – шесть представленных проекта выбрали члены жюри», – рассказал Святослав Орешин.
Алгоритм, который Святослав Орешин представил на конференции, позволяет определить в процессе обучения, сможет ли слушатель онлайн-курса сдать итоговый экзамен, и в случае, если он попадает в «группу риска», оказать на него влияние и повысить мотивацию. Основная проблема онлайн-курсов связана с низкой результативностью на выходе – несмотря на то, что многие активно записываются на прохождение курсов, лишь 5% завершают обучение. Проект призван повысить результативность онлайн-курсов, мотивацию учеников и адаптировать платформу под студента.
«Я со школы занимаюсь подобной практикой, у меня есть опыт в таких областях, как машинное зрение, обработка естественного языка и так далее. Я много работал с различными задачами машинного обучения, и решил эти навыки применить в онлайн-образовании. Вместе с Любовью Лисицыной – разработчиком курса “Методы и алгоритмы теории графов” – мы решили применить алгоритм к этому курсу на платформе “Открытое образование”», – рассказал Святослав Орешин.
Исследователь использовал данные пяти тысяч уникальных студентов, которые проходили сессии онлайн-курса с 2015 года (всего восемь сессий) на платформе «Открытое образование» в рамках курса «Методы и алгоритмы теории графов». В частности, изучались данные активности учеников за первые пять недель курса – к этому времени студенты проходят достаточно много сложных заданий и лекций, чтобы по показателям их активности (как студент смотрит лекции, быстро ли решает задания, активен ли на форуме и другое) предсказать, насколько успешной для них будет сдача экзамена. В рамках анализа статистики исследователь обращал внимание также на среднее время выполнения задания учениками. Если по этим показателям студент попадает в группу риска, можно попытаться дополнительно его мотивировать.
«Задача была найти точку в ходе курса, когда на основе промежуточных результатов обучения студентов можно предсказать вероятность сдачи экзамена. После этого для каждого студента рассчитывалась вероятность того, что он сдаст экзамен. Для этого мы брали математическое ожидание количества людей, которые должны сдать экзамен, например, 1000 человек записались на курс, 5 % от них, то есть примерно 50 человек, доходят до финала, и именно они составляют верх таблицы. По математическому ожиданию мы отсекали самый верх таблицы (тех, кто потенциально должен успешно выдержать экзамен), и начинали работать с оставшейся группой – теми, кто отставал в прогрессе, воздействуя на них», – объяснил студент.
Воздействие – прямой способ повысить мотивацию студента, сделав процесс его обучения более легким. По задумке автора, воздействием могут быть различные подсказки, персонализированные рекомендации, разбор заданий, предложение повторить материал из предыдущих уроков. Рекомендации зависят от структуры задания: с помощью анализа статистики исследователь узнает, что вызывает наибольшие сложности, и в зависимости от причины выбирается необходимый способ воздействия.
Во время тестирования алгоритма исследователь оказывал воздействие на 10 студентов из группы риска с помощью платформы и рассылки, в будущем этот процесс планируется автоматизировать. Так, вручную проводился детальный разбор ошибок учащихся, их активность, в соответствии с чем вырабатывались персональные рекомендации.
«Алгоритм был протестирован на весенней сессии. Мы нашли людей, воздействовали на них и получили неплохие результаты. 30 % студентов, которые статистически не должны были пройти порог, преодолели его. Однако этого недостаточно, чтобы утверждать, что влияние значимо, так как выборка небольшая. Что важно, эксперимент показал, что идея имеет место быть, и наш план – масштабировать ее. В сентябре мы будем общаться с администрацией платформы, чтобы внедрить алгоритм на несколько курсов и сделать процесс влияния на слушателей автоматическим. Для этого нужно будет сотрудничать с создателями курсов, чтобы понять их семантику и набрать необходимые данные. Как только мы сделаем воздействие на участников автоматическим, можно будет говорить о статистически значимых результатах. Мы делаем ставку на автоматизацию, поскольку при масштабировании ручной разбор активности каждого студента станет практически невыполнимой задачей. При автоматизации мы сможем выделить паттерны поведения на конкретных заданиях, кластеризовать их и в зависимости от кластера выдавать подсказки», – объяснил студент.
На создание проекта у Святослава Орешина ушло порядка четырех месяцев. Самым сложным, по словам студента, стала не техническая часть, а необходимость правильно сформулировать задачу. Перед тем, как прийти к готовому решению, было проанализировано 50 различных признаков активности студента (для сравнения, у большинства выступающих на секции были проанализированы три-четыре признака).
«В работе я использовал логистическую регрессию, градиентный бустинг на решающих деревьях, случайный лес, метод опорных векторов, однако именно первые два алгоритма показали наилучших результат, поэтому финальная модель – это ансамбль этих двух моделей. Для оценки данных я использовал метрику ROC AUC», – объяснил студент.
На конференции SEEL проект студента оценивало жюри из 20 экспертов в области математики, педагогики, машинного обучения, микроэлектроники и других областей. По решению жюри студент выиграл награду за лучшую статью и лучшую презентацию на конференции в рамках секции «Умное образование». Большинство докладов в этой секции были посвящены проблеме низкой результативности онлайн-курсов.