Análise de explicabilidade de modelos de classificação aplicados à evasão na educação a distância

Costa, Herbert da Silva (2023-07-13)

dissertacao_mestrado

O grande desafio dos gestores de EaD no ensino superior é o combate à evasão, que segundo o SEMESP (2022), varia entre 28 e 48% na maior parte dos cursos, enquanto que no ensino presencial, esta mesma taxa fica em torno de 22% e permanece inalterada ao longo dos anos. Com o objetivo de reduzir o alto índice de evasão, métodos de mineração de dados educacionais (MDE) têm sido aplicados conjuntamente com modelos de predição automática, para auxiliar gestores de EaD na tomada de providências antes que o fato ocorra. As fontes de dados utilizadas para a MDE são, em primeiro lugar, o Ambiente Virtual de Aprendizagem, onde os dados de interações – histórico de todos os cliques e visualizações – dos alunos ficam registrados em logs. A segunda fonte, quando disponível, é a base de dados do ERP Educacional da Instituição de Ensino Superior que disponibiliza dados de natureza socioeconômica e acadêmica e podem ser integrados aos de interação, sempre com o objetivo de melhorar o resultado da mineração e consequentemente o desempenho do modelo preditivo. Contudo, um problema relevante é selecionar as melhores características (variáveis/atributos) para predição da evasão. Neste trabalho, criamos um processo, apoiado por um arcabouço computacional, que emprega métodos de aprendizado de máquina juntamente com métodos de explicabilidade (XAI-SHAP) para selecionar as características mais importantes associadas à evasão, tanto para construção de modelos com maior poder preditivo (explicabilidade global), quanto para um melhor entendimento do problema de EaD (explicabilidade global/local). Para avaliar a robustez dos resultados do processo proposto, foram utilizados os datasets das Instituições de Ensino (i) UPE, com um conjunto completo de variáveis que representam todas as interações dos alunos no Ambiente Virtual e (ii) UNIVALE, que por limitações impostas pelo uso de um sistema de conteúdos terceirizado, precisava de integração de dados socioeconômicos e acadêmicos. Foram realizados nas quatro primeiras fases do processo, o pré-processamento, a separação dos dados (em treinamento e teste) e aplicados os métodos de MDE comparando os resultados através da métrica f1-score. Em seguida, feita a análise de explicabilidade global para selecionar as características utilizadas para a construção de um modelo preditivo de classificação binária. Após a seleção das características, nos dados da UPE, o modelo proposto alcançou medianas de f1-score entre 0,97 a 0,99. Já nos dados da UNIVALE, após realizada a devida integração de dados, um modelo alcançou o resultado f1-score de 0,94 com o classificador LightBoost, sendo ambos os resultados compatíveis com o estado da arte. Na Fase 5 foi criada uma API, utilizada como prova de conceito para testar tanto o resultado das predições, quanto o retorno dos gráficos SHAP para análise de explicabilidade local deste resultado, o que permite aos profissionais de EaD ter o suporte necessário para a descoberta do conhecimento que existe em dados disponíveis nos Ambientes Virtuais e nos sistemas acadêmicos das Instituições de Ensino.

The great challenge of distance learning managers in higher education is the fight against student’s dropout which, according to SEMESP (2021), varies between 28 and 48% in most courses, while in classroom learning, this same rate is around 22% and remains unchanged over the years. In order to reduce the high rate of student’s dropout, Educational Data Mining (EDM) methods have been applied together with automatic prediction models, to help distance learning managers in taking action before the fact occurs. The data sources used for the EDM are, in the first place, the Virtual Learning Environment, where interaction data – history of all clicks and views – of students are recorded in logs. The second source, when available, is the Higher Education Institution Educational ERP database, which provides data of a social and academic nature and can be integrated with interaction data, always with the aim of improving mining results and consequently the performance of the predictive model. However, a relevant problem is to select the best characteristics (variables/attributes) to predict dropout. In this work, we developed a process supported by a computational framework, that employs learning methods of machine together with explainability methods (XAI-SHAP) to select the most important characteristics associated with dropout, both for building models with greater predictive power (global explainability), and for a better understanding of the distance learning problem (global/local explainability). To assess the robustness of the process results, datasets from Education Institutions (i) UPE were used, with a complete set of variables that represent all student interactions in the Virtual Learning Environment and (ii) UNIVALE, which due to limitations imposed by the use of a system outsourced Content Management System, needed demographics and academic data integration. In the first four phases of the process, pre-processing, separation of data (in training and testing) were carried out, and the methods of EDM comparing the results through the f1-score metric. That were used global explainability analyze methods to select the characteristics to build a predictive binary classification model. After selecting the characteristics, in the UPE data, the proposed model achieved f1-score medians between 0.97 and 0.99. In the UNIVALE data, after performing the proper data integration, a model reached the f1-score result of 0.94 with the LightBoost classifier, both results being compatible with the state of the art. In Phase 5, an API was created, used as a proof of concept to test both the result of the predictions and the return of the SHAP graphs for analyzing the local explainability of these results, allowing distance learning professionals to have the necessary support for knowledge discovery that exists in data available in Virtual Learning Environments and academic systems of Higher Education Institutions.