Comparação de métodos de aprendizado de máquina para análise de risco de crédito
tcc
RESUMO: No Brasil, em maio de 2021, foi computado um saldo em operações de crédito no valor total de R$4,2 trilhões. Cerca de 21% da população brasileira, 34 milhões, possuem pouco ou nenhum acesso a serviços bancários. A fim de reduzir o repasse do custo da inadimplência aos consumidores, principalmente as de pequeno e médio porte, a análise de crédito é essencial para avaliar o risco em cada nova proposta de empréstimo. Como objetivo de aumentar a confiabilidade dos resultados para este tipo de análise, o uso de aprendizado de máquina busca predizer se novos clientes se tornarão inadimplentes ao compará-los com o características de clientes anteriores semelhantes. Este trabalho propõe comparar os modelos k-Nearest Neighbors, Árvores de Decisão, Random Forest, Regressão Logística, Support Vector Machines, Multilayer Perceptron, XGBoost, AdaBoost e um método Ensemble Stack, a fim de encontrar o modelo com melhor desempenho na análise de crédito. Foram utilizadas três bases públicas, que estão disponíveis na UCI Machine Learning Repository, sendo elas: German Credit Data, Australian Credit Approval e Default of Credit Card Clients Data Set. As métricas utilizadas para comparar os desempenhos entre os modelos foram acurácia, precisão, revocação e f1 score. Foi observado que o método Ensemble Stack obteve maior acurácia com a média de 81,41%, XGBoost ocupou a segunda posição com 80,87%, seguido por Regressão Logística com 80,48%.
ABSTRACT: In Brazil, in May 2021, a balance in credit operations in the total amount of R$4.2 trillion was computed. About 21% of the population, 34 million, have little or no access to banking services. In order to reduce the pass-through of the cost of default to consumers, especially small and medium-sized ones, credit analysis is essential to assess the risk in each new loan proposal. In order to increase the reliability of the results for this type of analysis, the use of machine learning seeks to predict whether new customers will default by comparing them with the characteristics of similar previous customers. This work proposes to apply k-Nearest Neighbors, Decision Trees, Random Forest, Logistic Regression, Support Vector Machines, Multilayer Perceptron, XGBoost, AdaBoost models and an ensemble Stack method, in order to find the model with the best performance in credit scoring. Three public databases were used, which are available at the UCI MachineLearning Repository, namely: German Credit Data, Australian Credit Approval, and Default of Credit Card Clients Data Set. The metrics used to compare the performances between the models were accuracy, precision, recall and f1 score. It was observed that the Stack Ensemble method obtained greater accuracy with an average of 81.41%, XGBoost was in the second position with 80.87%, followed by Logistic Regression with 80.48%.
Redes Sociais