Translate this page:
Please select your language to translate the article


You can just close the window to don't translate
Library
Your profile

Back to contents

Software systems and computational methods
Reference:

Model of decision support system in educational process of a university on the basis of learning analytics

Buldaev Alexander Alexandrovich

Assistan Director of the Center of New Information and Telecommunication Technologies, East Siberia State University of Technologies and Management

670013, Russia, respublika Buryatiya, g. Ulan-Ude, ul. Klyuchevskaya, d.40B, stroenie 1

buldaev@gmail.com
Naykhanova Larisa Vladimirovna

Doctor of Technical Science

Professor, the department of Informatics Systems, East Siberia State University of Technologies and Management

670013, Russia, respublika Buryatiya, g. Ulan-Ude, ul. Klyuchevskaya, d.40B, stroenie 1

obeka_nlv@mail.ru
Evdokimova Inga Sergeevna

PhD in Technical Science

Docent, the department of Informatics Systems, East Siberia State University of Technology and Management

670013, Russia, respublika Buryatiya, g. Ulan-Ude, ul. Klyuchevskaya, d.40B, stroenie 1

evdinga@gmail.com

DOI:

10.7256/2454-0714.2020.4.34286

Received:

10-11-2020


Published:

31-12-2020


Abstract: In recent decades, the potential of analytics and data mining – the methodologies that extract valuable information from big data, transformed multiple fields of scientific research. Analytics has become a trend. With regards to education, these methodologies are called the learning analytics (LA) and educational data mining (EDM). Latterly, the use of learning analytics has proliferated due to four main factors: a significant increase in data quantity, improved data formats, achievements in the area of computer science, and higher complexity of available analytical tools. This article is dedicated to the description of building the model of decision support system (DSS) of a university based on educational data acquired from digital information and educational environment. The subject of this research is the development of DSS with application of learning analytics methods. The article provides a conceptual model of decision-making system in the educational process, as well as a conceptual model of the components of DSS component – forecasting subsystem. The peculiarity of forecasting subsystem model implies usage of learning analytics methods with regards to data sets of a higher educational institution, which contain the results of work of the digital information and educational environment, and include the characteristics of student activity. The main results of the conducted research is the examined and selected methods of clusterization and classification (KNN), the testing of which demonstrated palatable results. The author examined various methods of clusterization, among which k-prototypes method showed best results. The conclusion is made on favorable potential of application of the methods of learning analytics in Russian universities.


Keywords:

decision support, clustering, classification, educational analytics, electronic information and educational environment, progress forecasting, forecasting methods, risk group, student progress, artificial intelligence


Введение

В настоящее время у высших учебных заведений появились хорошие возможности использовать аналитику обучения, что обусловлено, прежде всего, развитием информационных технологий и технологий, основанных на искусственном интеллекте. Учебная аналитика — это новая быстрорастущая область в образовании, которая поддерживает измерение, анализ и отчетность по данным об учащихся и контекстах обучения с целью понимания и оптимизации обучения и среды, в которой оно происходит. Сама область использует преимущества внедрения электронного обучения в сфере образования, а также результаты исследований и разработок в таких областях, как интеллектуальный анализ образовательных данных, веб-аналитика и статистика [1, с.8]. Использование учебной аналитики имеет высокий интерес и внедряется во многих высших учебных заведениях по всему миру, в настоящее время существует большой спрос на дополнительную информацию об учебной аналитике, ее методах и правовых рамках, а также о том, как на самом деле применять учебную аналитику в этой области [1, c. 18—22, 2].

Одним из важнейших направлений, где вузы могут использовать учебную аналитику для прогнозирования, является определение студентов, которые подвергаются большему риску отсева или неуспеваемости, и использовать это для формирования особенного подхода к студентам в данной группе риска. При традиционном подходе в обучении, на сегодняшний день, успешность прохождения учебных дисциплин оценивается преподавателем при помощи фиксации в журнале успеваемости текущих оценок, а также посещаемости занятий студентами. Соответственно, если предоставлять преподавателям, а также администрации вуза информацию о возможных проблемах на более ранних стадиях, то это будет помогать решать проблемы гораздо эффективнее.

Данная статья посвящена модели системы поддержки принятия решений на основе обработки образовательных данных, сформированных в электронной информационно-образовательной среде Восточно-Сибирского государственного университета технологий и управления (ВСГУТУ) с использованием методов учебной аналитики.

Прежде чем перейти к модели СППР, рассмотрим наиболее распространенные методы аналитики обучения, чтобы определить какие именно необходимы для создания модели системы поддержки принятия решений в учебном процессе.

1. Классификация методов учебной аналитики

Аналитика обучения (Learning Analytics, LA) в совокупности с интеллектуальным анализом образовательных данных (Educational Data Mining, EDM) — это важный процесс, в котором применяются интеллектуальные методы для извлечения шаблонов данных из баз данных учащихся, чтобы выявить ключевые характеристики и скрытые знания. Применение LA/EDM в основном сосредоточено на улучшении процесса обучения путем разработки точных моделей, которые прогнозируют характеристики и успеваемость учащихся. Важность LA/EDM основана на том факте, что она позволяет преподавателям и исследователям делать полезные выводы из сложных вопросов, таких как: найти студентов, которые покажут плохие результаты, для решения которых нельзя применять традиционные запросы к базе данных.

К основным группам методов учебной аналитики относятся: методы прогнозирования, методы обнаружения структуры, анализ отношений, обработка и представление данных для лиц, принимающих решения.

Методы прогнозирования

Классификаторы. В классификаторах прогнозируемая переменная может быть либо числовой (например, 0 или 1), либо категориальной переменной. Некоторые популярные методы классификации в образовательных областях включают деревья решений, случайный лес, правила принятия решений, ступенчатую регрессию и логистическую регрессию.

Регрессоры. В регрессорах прогнозируемая переменная является непрерывной переменной. Самый популярный регрессор в EDM — это линейная регрессия (надо заметить, что линейная регрессия не используется в EDM/LA, так же как в традиционной статистике, несмотря на то же название).

Оценка скрытых знаний. Третий тип модели прогнозирования, который важен в EDM/LA и на самом деле является просто специальным типом классификатора, — это оценка скрытых знаний [3, 4]. В оценке скрытых знаний учащихся и их конкретных навыков оценивается по шаблонам правильности этих навыков (а иногда и другой информации).

Алгоритм анализа факторов производительности. Метод также применяется для оценки скрытых знаний — это анализ факторов производительности, которые, как было установлено, имеют сопоставимые характеристики в ряде анализов.

Вектор эффективности обучения (LPV). Это подход к прогнозированию успеваемости учащихся, который базируется на теории пространства знаний, основанной на компетенциях (Competence-based Knowledge Space Theory, CbKST) и может предложить интересную нисходящую технику в области прогнозирования успеваемости.

Методы обнаружения структуры

Кластеризация. При кластеризации цель состоит в том, чтобы найти точки данных, которые естественным образом группируются вместе, разделяя полный набор данных на набор кластеров. Кластеры использовались для группирования студентов [5] и действий студентов [6].

Факторный анализ. В факторном анализе цель состоит в том, чтобы найти переменные, которые естественным образом группируются вместе, разбивая набор переменных (в отличие от точек данных) на набор скрытых (не наблюдаемых напрямую) факторов. В EDM/LA факторный анализ используется для уменьшения размерности (например, уменьшения количества переменных) для самых разных приложений.

Анализ социальных сетей. В анализе социальных сетей (СНС) разрабатываются модели взаимоотношений и взаимодействий между отдельными участниками, а также закономерностей, возникающих в результате этих отношений и взаимодействий.

Обнаружение доменной структуры. Обнаружение структуры предметной области заключается в нахождении структуры знаний в образовательной области (например, того, как конкретный контент соотносится с конкретными компонентами знаний или навыками учащихся) [7].

Формальный концептуальный анализ (FCA). Формальный концептуальный анализ (FCA), направлен на математическое описание понятий и иерархий понятий. FCA применяется для идентифицированных уникальных шаблонов в наборах данных, но, кроме того, он также может раскрыть иерархическую структуру между шаблонами.

Подходы к структурному моделированию на основе KST/CbKST. Теория пространства знаний, основанная на компетенциях, предоставляет теоретическую основу для моделирования знаний и компетенций. В исходной формализации область знаний характеризуется набором задач или тестовых заданий. Связывая навыки с проблемами и объектами обучения предметной области, создаются знания и структуры обучения по проблемам и, соответственно, объектам обучения.

Анализ отношений

Майнинг правил ассоциации. При интеллектуальном анализе ассоциативных правил цель состоит в том, чтобы найти правила «если-то» в форме, согласно которой при обнаружении некоторого набора значений переменных другая переменная обычно будет иметь определенное значение.

Корреляционный анализ. В корреляционном интеллектуальном анализе цель состоит в том, чтобы найти положительные или отрицательные линейные корреляции между переменными (с использованием апостериорных поправок или методов уменьшения размерности, когда это необходимо, чтобы избежать обнаружения ложных взаимосвязей).

Последовательный анализ паттернов. При последовательном изучении паттернов цель состоит в том, чтобы найти временные ассоциации между событиями [8].

Причинно-следственный анализ данных. При анализе причинно-следственных связей цель состоит в том, чтобы определить, было ли одно событие (или наблюдаемая конструкция) причиной другого события (или наблюдаемой конструкции), например, чтобы предсказать, какие факторы приведут к плохой успеваемости учащегося в классе.

Обработка и представление данных для лиц, принимающих решения

Визуализированные модели. Чтобы данные были полезны преподавателям, они должны быть своевременными. Когда преподаватели имеют немедленный доступ к визуализациям взаимодействия учащихся или неправильных представлений, которые отражаются в письмах и взаимодействии учащихся, они могут быстро включить эти данные в педагогическую деятельность. Некоторые из методов визуализации, которые использовались в образовании, включают: тепловые карты, кривые обучения, показывающие производительность во времени, обучающие диаграммы (learnograms), показывающие чередование занятий учащимися с течением времени.

Открытые модели учащегося (OLM). Модели обучающихся содержат и динамически обновляют информацию об обучении пользователя: текущие знания, компетенции, неверные представления, цели, аффективные состояния и т. д. Основное требование состоит в том, что такие визуализации должны быть понятны пользователю. OLM обычно больше фокусируются на концепциях или компетенциях, чтобы направлять учащихся к рассмотрению концептуальных вопросов, а не конкретных видов деятельности и результатов деятельности.

Диаграммы Хассе. Диаграммы Хассе представляют собой структурные графы, содержащие значительный объем информации, т. е. структуру и взаимосвязь компетенций в предметной области, индивидуальные траектории обучения, индивидуальные состояния обучения, состояния обучения, связанные с группой, следующие логические шаги и т. д.

Согласно приведенному обзору, можно сделать вывод о том, что для подготовки и анализа данных методы анализа отношений между исходными данными, например корреляционный анализ. Далее необходимы методы обнаружения структуры в сформированном наборе данных и можно использовать методы кластеризации. Для анализа полученных кластеров можно снова использовать методы анализа отношений для выявления моделей поведения студентов, например формального анализа понятий (ФАП). Для построения прогноза следует использовать методы классификации. Для обработки и представление данных для лиц, принимающих решения, необходимо использовать методы визуализации.

2. Концептуальная модель системы поддержки принятия решений в учебном процессе

В последнее десятилетие в мире появились работы, в которых создание систем поддержки принятия решений (СППР) (англ. Decision Support System, DSS) основано на прогнозировании с использованием машинного обучения и методов интеллектуального анализа данных, являющиеся важным инструментом, и предлагающие помощь преподавателям в раннем распознавании тех учащихся, которые, вероятно, будут демонстрировать низкую успеваемость [9-11].

С аналитической точки зрения, академическая DSS — это информационная система, основанная на знаниях, для сбора, обработки и анализа информации, которая влияет или предназначена для воздействия на принятие решений, выполняемых людьми в рамках профессиональной задачи, назначенной пользователем [12].

Коренное отличие учебной аналитики от педагогической диагностики и других способов сбора данных заключается в следующем:

1) при обычной диагностике данные собираются на основе ответов обучающихся через анкетирование, опросы, в то время как в учебной аналитике они фиксируются в информационных системах, передаются через компьютер;

2) в педагогической диагностике анализируется работа преподавателя, а в учебной аналитике — прежде всего, обучающихся, для того чтобы спрогнозировать успех или неудачу обучения.

Но главное отличие — сбор данных в первом случае происходит в соответствии со специальной процедурой в определенный момент времени (обычно в конце обучения), в том время как в учебной аналитике он проводится постоянно, непрерывно.

В процессе обучения немалая часть студентов отчисляются, что является негативным критерием эффективности работы вуза. В связи с этим в настоящей работе целью применения аналитики обучения является предсказание студентов, попадающих в группу риска, то есть студентов, которые могут быть отчислены и студентов с низкой успеваемостью. В соответствие с этим построена модель системы поддержки принятия решений в учебном процессе (УП), концепция которой представлена на рис. 1.

Рисунок 1 ­— Концептуальная схема СППР в учебном процессе

Рассмотрим краткое описание компонентов СППР УП.

Подсистема автоматического сбора и анализа данных

Основными функциями данного компонента являются сбор, подготовка и анализ данных, фильтрация и трансформация исходных данных в представления, пригодные для дальнейшего применения в системе. В работе для анализа данных применяется корреляционный анализ.

Источником данных для данной подсистемы в ЭИОС вуза может быть информация, полученная из модулей:

1. Штатное расписание и кадры.

2. Планирование и контроль деятельности подразделений.

3. Абитуриент.

4. Контингент учащихся.

5. Учебные планы.

6. Реестр дисциплин.

7. Научная деятельность.

8. Личный кабинет.

Особое значение занимает модуль «Личный кабинет», так как его целью является объединение всех модулей в единую систему с пользовательской стороны. Также в этом модуле происходит фиксация всех видов активностей работы пользователей в ЭИОС, что является одним из самых важных источников для формирования цифрового следа.

Функционал данного компонента состоит из следующих функций верхнего уровня: поиск и выбор данных (включая корреляционный анализ), сохранение данных в виде представлений, преобразование данных в форматы методов, заданных в пользовательском интерфейсе методов и создание и заполнение временной базы данных СППР, создание базы знаний. Каждой задаче соответствуют определенные методы. Поиск данных может осуществляться как в базах данных ЭИОС, так и в наборах данных (структурированных и полуструктурированных), например в логах, в журналах успеваемости и др. База знаний создается для компонента «Аналитическая подсистема» в виде множества правил.

Подсистема прогнозирования

В данном компоненте на предварительном этапе посредством кластерного анализа производится поиск структур данных и построение моделей поведения студентов на основе применения последовательного анализа паттернов.

Для построения прогноза используются методы классификации. На предварительном этапе осуществляется обработка исторических данных, а прогнозирование осуществляется на реальных данных.

Аналитическая подсистема

Разбиение набора данных на группы студентов с близкими характеристиками посредством кластеризации позволяет выполнить различного вида анализ в рамках сформированных групп (кластеров): по среднему баллу, по количеству входов в ЭИОС в период изучения дисциплины, количеству сообщений по дисциплине, индексу равномерности активности в ЭИОС по дисциплине, индексу вовлеченности в ЭИОС по дисциплине, по статусу окончания вуза (окончил обучение, отчислен, в академическом отпуске), по полу и др. Анализ данных обеспечивает возможность формирования рекомендаций, направленных на предупреждение о студентах, попавших в группу риска и необходимости предпринимать определенные действия, и сохранении контингента.

Для анализа полученных данных используются системы правил (setrules). Визуализация результатов осуществляется в виде понятном и удобном для пользователя на основе 2D-графики.

3. Апробация подсистемы прогнозирования

На рисунке 2 представлена концептуальная модель подсистемы прогнозирования, которая включает в себя процедуры кластеризации студентов (метод k- prototypes), классификации студентов из тестовой выборки (алгоритм KNN), выявление студентов из группы риска (формирование прогнозов).

Для апробации модели был сформирован датасет «Исторические данные» сформирован на основе выборки студентов с нескольких факультетов ВСГУТУ. В датасет выбраны только дисциплины с курсовыми работами (проектами), как одни из значимых в учебном плане, количество записей в датасете — 1468.

Рисунок 2 — Концептуальная модель подсистемы прогнозирования

Далее, на полученных результатах кластеризации было проведено обучение при помощи метода классификации К-ближайших соседей. Для проведения исследований с использованием классификации был сформирован отдельный датасет «Тестовая выборка» на основе выборки студентов 2020 года выпуска по тем же принципам и структурой, что и датасет «Исторические данные», количество записей в датасете — 246.

Было проведено три эксперимента, первый на полной структуре датасета, указанных в табл. 1. Второй эксперимент был произведен на датасете без учета данных об активностях в ЭИОС. Третий эксперимент был произведен на датасете без учета данных об оценке за дисциплину.

Для поиска студентов из группы риска нужно использовать данные, полученные по кластерам №1 и №2, так как они показывают самые низкие средние оценки. Методика классификации студентов, основанного на третьем эксперименте, может быть использована в период самого прохождения дисциплины студентами, так как она не использует оценку по дисциплине. Также очевидно, что результаты кластеризации и классификации, описанные в данной статье, можно уточнять, при помощи выделения подкластеров, а также при помощи применения различного рода сегментации данных, например, по дисциплинам.

Таблица 1 — Результаты классификации методом К-ближайших соседей (Knn)

Кластер

Среднее значение оценки на основной выборке после кластеризации

Среднее значение оценки на тестовой выборке с классификацией Knn, эксперимент 1

Среднее значение оценки на тестовой выборке с классификацией Knn, эксперимент 2

Среднее значение оценки на тестовой выборке с классификацией Knn, эксперимент 3

0

4.65

4.64

4.7

4.73

1

3.78

3.61

3.62

3.58

2

3.43

3.54

3.56

3.26

3

4.22

4.25

4.18

4.46

В целом из результатов, представленных в таблице 1 видно, что полученные значения достаточно близкие. Это говорит о том, что примененные методы по кластеризации и классификации данных показали приемлемые результаты и данная методика может быть использована для систем поддержки принятия решений вузов.

Заключение

Развитие академического DSS имеет большое значение для студентов, преподавателей и образовательных организаций, и будет более ценно, если знания, полученные в результате успеваемости учащихся, будут доступны менеджерам образования в процессе принятия ими решений.

В работе приведен анализ по возможному использованию образовательных данных, которые могут быть получены из баз данных ЭИОС вузов РФ, оценена возможность применения методов кластеризации и классификации для поиска студентов из групп риска. Анализ моделей поведения обучающихся студентов позволит преподавателям и руководству вовремя принимать решения о помощи таким студентам, что обеспечит более высокий уровень сохраняемости контингента студентов.

References
1. Ferguson, R., Brasher, A., Clow, D., Cooper, A., Hillaire, G., Mittelmeier, J., Rienties, B., Ullmann, T., Vuorikari, R. (2016). Research Evidence on the Use of Learning Analytics — Implications for Education Policy. R. Vuorikari, J. Castaño Muñoz (Eds.). Joint Research Centre Science for Policy Report; EUR 28294 EN; doi:10.2791/955210, 8-22.
2. Belonozhko P.P., Karpenko A.P., Khramov D.A. Analiz obrazovatel'nykh dannykh: napravleniya i perspektivy primeneniya [Elektronnyi resurs] // Internet-zhurnal «Naukovedenie». — 2017. — T. 9. — № 4. — URL: http://naukovedenie.ru/PDF/15TVN417.pdf (data obrashcheniya: 09.11.2020), 21 s.
3. Corbett, A. T. and Anderson, J. R. 1995. Knowledge tracing: Modeling the acquisition of procedural knowledge. User Modeling and User-Adapted Interaction 4, 4, 253—278.
4. Pavlik, P. I., Cen, H. & Koedinger, K. (2009) Performance Factors Analysis — A New A Pavlik, P. I., Cen, H. & Koedinger, K. (2009) Performance Factors Analysis — A New Alternative to Knowledge. Proceedings of the 14th International Conference on Artificial Intelligence in Education, Brighton, UK, 531—538.
5. C.R. Beal, L. Qu and H. Lee (2006). Classifying learner engagement through integration of multiple data sources. Proceedings of AAAI'06, Boston, MA.
6. Amershi, S. & Conati, Cristina. (2009). Combining unsupervised and supervised classification to build user models for exploratory learning environments. Journal of Educational Data Mining (JEDM). 1. 18—71.
7. Cen, Hao & Koedinger, Kenneth & Junker, Brian. (2006). Learning Factors Analysis — A General Method for Cognitive Model Evaluation and Improvement. 4053. 164—175. 10.1007/11774303_17.
8. Perera, D., Kay, J., Korpinska, I., Yacef, K. and Zaiane, O. 2009. Clustering and Sequential Pattern Mining of Online Collaborative Learning Data. IEEE Tran. on Knowledge and Data Engineering 21, 759—772.
9. Chau, V.T.N., Phung, N.H.: A knowledge driven education decision sup-port system. In: 2012 IEEE RIVF International Conference on Computing Communication Technologies, Research, Innovation, and Vision for the Future, 1—6 (2012).
10. Deniz, D.Z., Ersan, I.: An academic decision support system based on academic performance evaluation for student and program assessment. Int. J. Eng. Educ. 18(2), 236—244 (2002).
11. Grivokostopoulou, F., Perikos, I., Hatzilygeroudis, I.: Utilizing semantic web technologies and data mining techniques to analyze students learning and predict final performance. In: 2014 International Conference on Teaching, Assessment and Learning (TALE), 488—494. IEEE (2014).
12. Bresfelean, V.P., Ghisoiu, N.: Higher education decision making and decision support systems. WSEAS Trans. Adv. Eng. Educ. 7, 43—52 (2010)