Comparação entre modelos de classificação convencionais e baseados em GNN aplicados a dados tabulares de COVID-19

Mapel, Ezequiel Furtado (2023-12-12)

tcc

O COVID-19, uma doença respiratória causada pelo novo coronavírus, foi identificado em dezembro de 2019. Caracterizada por sua alta taxa de transmissão, a doença rapidamente se espalhou globalmente, resultando em desafios como superlotação hospitalar e escassez de recursos. Diante desses cenários, equipes médicas precisaram tomar decisões críticas sobre a alocação de recursos limitados. Nesse contexto, surgiram abordagens de aprendizado de máquina para prever a mortalidade por COVID, visando orientar a distribuição eficiente de recursos com base nessas predições. Diversos modelos têm alcançados bons resultados na classificação, dentre eles podemos destacar alguns modelos convencionais do estado da arte: Random Forest, Logistic Regression, XGBoost e CatBoost. Além desses, outros modelos, baseados em redes neurais em Grafo (GNN) vêm se destacando por obter resultados bastante promissores em diversas áreas. Entretanto, até onde pudemos verificar, existem poucos trabalhos que avaliam comparativamente os modelos de classificação do estado da arte com modelos GNN. Neste trabalho, comparamos o desempenho dos modelos GNN com os modelos de classificação convencionais aplicados a dados tabulares. Utilizamos duas bases públicas de dados tabulares de COVID-19, uma de pacientes do Espírito Santo e outra de pacientes do México. Primeiramente, realizamos um pré-processamento dos dados para limpeza e tratamento de dados faltantes. Em seguida, aplicamos técnicas como estratificação, balanceamento de dados e validação cruzada k-fold para otimizar os hiperparâmetros dos modelos convencionais utilizados: Logistic Regression, Random Forest, XGBoost e CatBoost. Para que os dados tabulares possam ser usados por modelos GNN é necessário adaptá-los, ou seja, convertê-los em um grafo onde os nós são os pacientes e as arestas representam as similaridades (calculadas através de cosseno) entre eles. Os modelos GNN utilizados foram Graph Convolutional Networks (GCN) e Graph Attention Networks (GAT). Para avaliação dos modelos, realizamos a validação Monte Carlo, dividindo os dados em treino e teste, e calculamos as respectivas métricas dos modelos. O modelo convencional que apresentou melhor desempenho para a base de dados do Espírito Santo (e México), foi o CatBoost alcançando 91,1% (91,9%) de acurácia e 91,0% (92,1%) no F1–score. Quanto aos modelos GNN, a rede GAT obteve 87,9% (88,5%) de acurácia e 88,0% (88,7%) de F1–score. Já a rede GCN obteve uma acurácia de 87,1% (88,7%) e F1–score de 87,4% (89,1%). Portanto, os modelos GNN, mesmo tendo sido aplicados a dados que inicialmente eram tabulares, alcançaram resultados bastante próximos aos modelos convencionais, mas não chegaram ainda a superá-los nos dados utilizados neste trabalho.

COVID-19, a respiratory disease caused by the novel coronavirus, was identified in December 2019. Characterized by its high transmission rate, the disease quickly spread globally, resulting in challenges such as hospital overcrowding and resource shortages. Faced with these scenarios, medical teams needed to make critical decisions about the allocation of limited resources. In this context, machine learning approaches emerged to predict COVID mortality, aiming to guide the efficient distribution of resources based on these predictions. Various models have achieved good classification results, including some conventional state-of-the-art models such as Random Forest, Logistic Regression, XGBoost and CatBoost. In addition to these, other models based on Graph Neural Networks (GNN) have stood out for obtaining highly promising results in various areas. However, to the best of our knowledge, there are few works that comparatively evaluate state-of-the-art classification models with GNN models. In this study, we compare the performance of GNN models with conventional classification models applied to tabular data. We used two public tabular COVID-19 datasets, one from patients in Espírito Santo and another from patients in Mexico. Firstly, we conducted data preprocessing for cleaning and handling missing data. Next, we applied techniques such as stratification, data balancing, and k-fold cross-validation to optimize the hyperparameters of the conventional models used: Logistic Regression, Random Forest, XGBoost, and CatBoost. To use tabular data with GNN models, it is necessary to adapt them by converting them into a graph where nodes represent patients and edges represent similarities (calculated through cosine similarity) between them. The GNN models used were Graph Convolutional Networks (GCN) and Graph Attention Networks (GAT). For model evaluation, we mainly performed Monte Carlo validation, dividing the data into training and testing sets and calculating the respective metrics of the models. The conventional model that showed the best performance for the Espírito Santo (and Mexico) dataset was CatBoost, achieving 91.1% (91.9%) accuracy and 91.0% (92.1%) F1-score. As for GNN models, the GAT network obtained 87.9% (88.5%) accuracy and 88.0% (88.7%) F1-score. The GCN network achieved an accuracy of 87.1% (88.7%) and an F1-score of 87.4% (89.1%). Therefore, GNN models, even when applied to initially tabular data, achieved results very close to conventional models but have not yet surpassed them in the data used in this study.


Colecciones: