Utilizando técnicas de aprendizado de máquina para estudo de um questionário sobre transtorno depressivo maior

Oliveira, Matheus de Souza Pereira de (2023)

tcc

RESUMO Transtorno depressivo maior, mais conhecido por sua forma reduzida, depressão, é uma doença comum, porém muito séria, que afeta diretamente na vida das pessoas. Ela pode ser causada por fatores genéticos, biológicos, ambientais e psicológicos. Segundo a Organização Mundial da Saúde (OMS), a depressão será a doença mais comum no planeta até 2030, ultrapassando as doenças cardíacas e até o câncer. Desta forma, ela gerará altos custos com tratamentos e diminuição da produtividade da população, afetando de forma maior países subdesenvolvidos, já que nesses locais os índices da doença são mais elevados. Os casos de depressão e ansiedade aumentaram em 25% durante a pandemia do COVID-19, a OMS, em 2017, também apontou que o Brasil possui 5,8% de sua população com o transtorno. Logo, é importante definir quais são os fatores determinantes para a disseminação desta doença. Neste trabalho, realizamos uma análise em um questionário aplicado na zona metropolitana de São Paulo, para uma pesquisa sobre transtornos mentais comuns, ou seja, manias, transtorno obsessivo compulsivo (TOC) e ansiedade, entretanto focamos nas questões que se relacionavam ao transtorno de depressão, a fim de criar um modelo classificador para auxiliar e acelerar na triagem de possíveis casos e estudar as questões mais relevantes para o classificador, através de técnicas de Aprendizado de Máquina (AM). Do questionário, selecionamos as perguntas de triagem e as relacionadas a depressão, realizamos a preparação das informações, limpeza de dados e redução de dimensionalidade, analisamos a qualidade das informações obtidas e separamos em treino e teste. Utilizamos os dados de treino para treinarmos dois algoritmos de classificação, são eles: Árvore de Decisão (AD) e Floresta Aleatória (FA). Com a validação cruzada K-Fold e Monte Carlo, escolhemos o melhor algoritmo com base nas métricas de acurácia, revocação, precisão, f1-score e roc_auc. O método de características importantes do modelo criado em cima do algoritmo de FA, nos auxiliou analisar as perguntas que mais impactaram na decisão do classificador. Os resultados dos classificadores criados foram satisfatórios com acurácias e revocação maiores que 90%, tanto para o modelo baseado no algoritmo numa AD e FA, sendo que o modelo otimizado para obter os melhores hiperparâmetro para o FA sempre estava à frente do algoritmo de árvore simples. Foi possível perceber também, que as questões mais relevantes estão ligadas a períodos longos de tristeza, fatores psicológicos, condições de vida e histórico familiar, o que corroboraram com as pesquisas realizadas pela OMS. Portanto, conseguimos, mesmo não sendo especialistas da área, através de técnicas de AM, desenvolver um classificador para auxiliar na triagem para o diagnóstico de depressão, além de destacarmos as questões mais importantes do questionário para o classificador.

ABSTRACT Major depressive disorder, better known in its shortened form as depression, is a common yet very serious illness that directly impacts people's lives. It can be caused by genetic, biological, environmental, and psychological factors. According to the World Health Organization (WHO), depression will be the most common disease on the planet by 2030, surpassing heart diseases and even cancer. Consequently, it will generate high costs for treatments and a decrease in the population's productivity, affecting developing countries more significantly, as these places have higher rates of the disease. Cases of depression and anxiety increased by 25% during the COVID-19 pandemic. In 2017, the WHO also pointed out that Brazil has 5.8% of its population with the disorder. Therefore, it is important to identify the determining factors for the spread of this disease. In this work, we conducted an analysis of a questionnaire applied in the metropolitan area of São Paulo for research on common mental disorders, such as manias, obsessive-compulsive disorder (OCD), and anxiety. However, we focused on the questions related to depression in order to create a classifier model to assist and speed up the screening of potential cases and study the most relevant questions for the classifier through Machine Learning (ML) techniques. From the questionnaire, we selected the screening questions and those related to depression, prepared the information, cleaned the data, and reduced the dimensionality. We analyzed the quality of the obtained information and split it into training and testing sets. We used the training data to train two classification algorithms: Decision Tree (DT) and Random Forest (RF). Using K-Fold cross-validation and Monte Carlo, we selected the best algorithm based on accuracy, recall, precision, F1-score, and roc_auc metrics. The feature importance method of the model created on top of the RF algorithm helped us analyze the questions that had the most impact on the classifier's decision. The results of the classifiers we created were satisfactory, with accuracies and recalls exceeding 90%, both for the model based on the DT and RF algorithms. The model optimized to obtain the best hyperparameters for RF consistently outperformed the simple decision tree algorithm. It was also possible to notice that the most relevant questions were related to long periods of sadness, psychological factors, living conditions, and family history, which corroborated with research conducted by the WHO. Therefore, even though we are not experts in the field, we were able to develop a classifier to assist in screening for depression diagnosis through ML techniques, as well as highlight the most important questions from the questionnaire for the classifier.