Pré-diagnóstico de Diabetes Mellitus em mulheres usando técnicas clássicas de aprendizado de máquina
tcc
RESUMO: O pré-diagnóstico da Diabetes Mellitus é importante no sentido de permitir a tomada de medidas terapêuticas de prevenção, o que pode evitar danos à saúde, como problemas vasculares nos olhos, nervos, rins e coração, entre outros. Em geral, a doença é causada devido a uma produção insuficiente de insulina pelo organismo ou pela má absorção da mesma. Em fases iniciais, especialistas apresentam dificuldades técnicas em realizar um diagnóstico assertivo. Neste Trabalho de Conclusão de Curso (TCC), estudamos e implementamos técnicas clássicas de aprendizado de máquina para auxiliar o diagnóstico da doença. Devido à sua natureza, tais técnicas, além de não serem invasivas, podem fornecer informações e insights importantes que, juntamente com a experiência de um especialista, podem contribuir para o correto pré-diagnóstico. Realizamos nossa investigação usando uma base de dados de pacientes do sexo feminino de uma população nativa de um território estadunidense. Apesar do escopo limitado, os resultados servem como uma base que permite avanços para um estudo mais generalizado, usando outras bases de dados similares. Ao estabelecermos correlações entre os atributos de entrada e utilizarmos as técnicas de balanceamento de dados oversampling e undersampling, verificamos que, dentre os algoritmos implementados, a saber, Suport Vector Machines (SVMs) (linear e baseadas em kernels sigmoidal e usando função de base radial); k vizinhos mais próximos (KNNs) (com k = 5 e k = 10); Random Forests (RFs) (com critérios de atualização de Gini e entropia cruzada), e Light Gradient Boosting Machine (LGBM), que o algoritmo Random Forest com critério de atualização entropia cruzada apresentou melhor desempenho, alcançando cerca de 85,80% de acurácia média (em 50 execuções) no conjunto de dados balanceado usando-se oversampling e validação cruzada com 5 pastas. Outros algoritmos superaram o desempenho do Random Forest em outras métricas, tais como Precision, Recall e F1-score. Ressaltamos que a SVM com kernel sigmoidal apresentou os piores resultados em todos os cenários e em todas as métricas utilizadas.
ABSTRACT: The pre-diagnosis of Diabetes Mellitus is important in order to allow the taking of preventive therapeutic measures, which can prevent damage to health, such as vascular problems in the eyes, nerves, kidneys and heart, among others. In general, the disease is caused due to insufficient production of insulin by the body or poor absorption of it. In early stages, specialists have technical difficulties in making a correct diagnosis. In this Undergraduate Thesis, we study and implement classic machine learning techniques to aid in the diagnosis of the disease. Due to their nature, such techniques, in addition to being non-invasive, can provide important information and insights that, together with the experience of a specialist, can contribute to the correct pre-diagnosis. We carried out our investigation using a dataset of female patients from a native population of American territory. Despite the limited scope, the results serve as a basis that allows advances for more general study, using other similar datasets. By establishing correlations between the input attributes and using the oversampling and undersampling data balancing techniques, we verified that, among the implemented algorithms, namely Support Vector Machines (SVMs) (linear and based on sigmoidal and RBF kernels); k nearest neighbors (KNNs) (with k = 5 and k = 10); Random Forests (RFs) (with Gini and cross-entropy criteria), and Light Gradient Boosting Machine (LGBM), which the algorithm Random Forest with crossentropy presented the best performance, reaching about 85.80% average accuracy (in 50 rounds of the experiment) on the balanced dataset using oversampling and cross-validation with 5 folders. Other algorithms outperformed Random Forest on other metrics, such as Precision, Recall, and F1-score. Furthermore, SVM with sigmoidal kernel presented the worst performances in all scenarios and metrics. We emphasize that SVM with sigmoidal kernel presented the worst results in all scenarios and in all metrics used.
Redes Sociais