dc.contributor.advisor | Simões, Sérgio Nery | |
dc.contributor.author | Mapel, Ezequiel Furtado | |
dc.date.accessioned | 2024-05-29T13:58:08Z | |
dc.date.available | 2024-05-29T13:58:08Z | |
dc.date.issued | 2023-12-12 | |
dc.identifier.citation | MAPEL, Ezequiel Furtado. Comparação entre modelos de classificação convencionais e baseados em GNN aplicados a dados tabulares de COVID-19. 2023. 101. Trabalho de Conclusão de Curso (Bacharelado em Sistemas de Informação) - Instituto Federal do Espírito Santo, Serra, 2023. | pt_BR |
dc.identifier.uri | https://repositorio.ifes.edu.br/handle/123456789/4666 | |
dc.description.abstract | O COVID-19, uma doença respiratória causada pelo novo coronavírus, foi identificado em
dezembro de 2019. Caracterizada por sua alta taxa de transmissão, a doença rapidamente
se espalhou globalmente, resultando em desafios como superlotação hospitalar e escassez de
recursos. Diante desses cenários, equipes médicas precisaram tomar decisões críticas sobre
a alocação de recursos limitados. Nesse contexto, surgiram abordagens de aprendizado de
máquina para prever a mortalidade por COVID, visando orientar a distribuição eficiente de
recursos com base nessas predições. Diversos modelos têm alcançados bons resultados na
classificação, dentre eles podemos destacar alguns modelos convencionais do estado da arte:
Random Forest, Logistic Regression, XGBoost e CatBoost. Além desses, outros modelos,
baseados em redes neurais em Grafo (GNN) vêm se destacando por obter resultados
bastante promissores em diversas áreas. Entretanto, até onde pudemos verificar, existem
poucos trabalhos que avaliam comparativamente os modelos de classificação do estado da
arte com modelos GNN. Neste trabalho, comparamos o desempenho dos modelos GNN
com os modelos de classificação convencionais aplicados a dados tabulares. Utilizamos
duas bases públicas de dados tabulares de COVID-19, uma de pacientes do Espírito Santo
e outra de pacientes do México. Primeiramente, realizamos um pré-processamento dos
dados para limpeza e tratamento de dados faltantes. Em seguida, aplicamos técnicas
como estratificação, balanceamento de dados e validação cruzada k-fold para otimizar os
hiperparâmetros dos modelos convencionais utilizados: Logistic Regression, Random Forest,
XGBoost e CatBoost. Para que os dados tabulares possam ser usados por modelos GNN é
necessário adaptá-los, ou seja, convertê-los em um grafo onde os nós são os pacientes e as
arestas representam as similaridades (calculadas através de cosseno) entre eles. Os modelos
GNN utilizados foram Graph Convolutional Networks (GCN) e Graph Attention Networks
(GAT). Para avaliação dos modelos, realizamos a validação Monte Carlo, dividindo os
dados em treino e teste, e calculamos as respectivas métricas dos modelos. O modelo
convencional que apresentou melhor desempenho para a base de dados do Espírito Santo
(e México), foi o CatBoost alcançando 91,1% (91,9%) de acurácia e 91,0% (92,1%) no
F1–score. Quanto aos modelos GNN, a rede GAT obteve 87,9% (88,5%) de acurácia e
88,0% (88,7%) de F1–score. Já a rede GCN obteve uma acurácia de 87,1% (88,7%) e
F1–score de 87,4% (89,1%). Portanto, os modelos GNN, mesmo tendo sido aplicados
a dados que inicialmente eram tabulares, alcançaram resultados bastante próximos aos
modelos convencionais, mas não chegaram ainda a superá-los nos dados utilizados neste
trabalho. | pt_BR |
dc.description.abstract | COVID-19, a respiratory disease caused by the novel coronavirus, was identified in
December 2019. Characterized by its high transmission rate, the disease quickly spread
globally, resulting in challenges such as hospital overcrowding and resource shortages.
Faced with these scenarios, medical teams needed to make critical decisions about the
allocation of limited resources. In this context, machine learning approaches emerged to
predict COVID mortality, aiming to guide the efficient distribution of resources based on
these predictions. Various models have achieved good classification results, including some
conventional state-of-the-art models such as Random Forest, Logistic Regression, XGBoost
and CatBoost. In addition to these, other models based on Graph Neural Networks (GNN)
have stood out for obtaining highly promising results in various areas. However, to the
best of our knowledge, there are few works that comparatively evaluate state-of-the-art
classification models with GNN models. In this study, we compare the performance of
GNN models with conventional classification models applied to tabular data. We used two
public tabular COVID-19 datasets, one from patients in Espírito Santo and another from
patients in Mexico. Firstly, we conducted data preprocessing for cleaning and handling
missing data. Next, we applied techniques such as stratification, data balancing, and k-fold
cross-validation to optimize the hyperparameters of the conventional models used: Logistic
Regression, Random Forest, XGBoost, and CatBoost. To use tabular data with GNN
models, it is necessary to adapt them by converting them into a graph where nodes represent
patients and edges represent similarities (calculated through cosine similarity) between
them. The GNN models used were Graph Convolutional Networks (GCN) and Graph
Attention Networks (GAT). For model evaluation, we mainly performed Monte Carlo
validation, dividing the data into training and testing sets and calculating the respective
metrics of the models. The conventional model that showed the best performance for the
Espírito Santo (and Mexico) dataset was CatBoost, achieving 91.1% (91.9%) accuracy and
91.0% (92.1%) F1-score. As for GNN models, the GAT network obtained 87.9% (88.5%)
accuracy and 88.0% (88.7%) F1-score. The GCN network achieved an accuracy of 87.1%
(88.7%) and an F1-score of 87.4% (89.1%). Therefore, GNN models, even when applied to
initially tabular data, achieved results very close to conventional models but have not yet
surpassed them in the data used in this study. | pt_BR |
dc.format.extent | 101 f. | pt_BR |
dc.language | pt_BR | pt_BR |
dc.rights | acesso_aberto | pt_BR |
dc.subject | Bases de dados COVID | pt_BR |
dc.subject | Aprendizado de Máquina Supervisionado | pt_BR |
dc.subject | Classificação | pt_BR |
dc.subject | Redes Neurais em Grafo | pt_BR |
dc.subject | COVID-19 | pt_BR |
dc.subject | Graph Neural Networks (GNN) | pt_BR |
dc.title | Comparação entre modelos de classificação convencionais e baseados em GNN aplicados a dados tabulares de COVID-19 | pt_BR |
dc.type | tcc | pt_BR |
dc.publisher.local | Serra | pt_BR |
dc.contributor.member | Komati, Karin Satie | |
dc.contributor.member | Oliveira, Hilário Tomaz Alves de | |
Redes Sociais