Detecção de fraudes em cartões de crédito utilizando técnicas de aprendizado de máquina

Lima, Jardielma Queiroz de (2022)

tcc

RESUMO: O uso crescente dos cartões de crédito na realização de pagamentos levou a um aumento significativo do número de fraudes nessa categoria de transação, tornando indispensável às instituições de cartões de crédito realizar previamente a identificação dessas ações antes mesmo que elas ocorram. Técnicas de Aprendizado de Máquina têm se mostrado bastante promissoras na solução desse tipo de problema. Este trabalho visa avaliar diferentes técnicas de aprendizado de máquina aplicadas ao problema de detecção de anomalias em dados de transações de cartões de crédito. Para isso, utilizei as técnicas One-classe SVM, Isolation forest. Além disso, foi avaliado o desempenho do classificador SVM na base de dados desbalanceada e balanceada com as técnicas de Oversample SMOTE e Random Undersampling. Os modelos de detecção de anomalias foram treinados com 70% dos dados válidos e testado com os 30% restantes dos dados) misturados aos dados anômalos (transações fraudulentas). O mesmo percentual de dados foi utilizado para treinamento e teste do SVM, porém os dados não foram divididos em dados normais (transações válidas) e anomalias (transações fraudulentas), apenas o processo de hold-out sobre todo o conjunto foi feito. A técnica Isolation Forest obteve o melhor resultado na identificação de anomalias, 50% de precisão, 99,4% de acurácia, 26% no Recall, 34% no f1-Score e 0,6293 na curva ROC. A técnica SVM Kernel Linear com Undersampling obteve o melhor resultado na identificação de anomalias com técnica de balanceamento de dados, 100% de precisão na identificação de anomalias, 99,6% de acurácia, 99,38% no Recall, 100% no f1-Score e na curva ROC. O uso das técnicas de Oversample SMOTE e Undersampling fizeram com que o classificador SVM obtivesse bons resultados, porém devemos considerar que os dados sintéticos e a redução da base de dados (cerne das duas técnicas) potencializam o classificador e seus resultados, não necessariamente o classificador manterá os bons resultados em situações com dados somente reais.

ABSTRACT: The ever-growing usage of credit cards on payments execution has led to a significant increase on the amount of frauds in this kind of transaction, making it essential to credit cards institutions to identify these actions previously, even before they happen. Machine Learning techniques have been showing to be quite promising in the solution of this kind of problem. This school work aims to evaluate different Machine Learning techniques applied to the problem of anomaly detection in credit cards transactions data. To do that, the Isolation forest and One-classe SVM techniques are utilized. Furthermore, the SVM classifier’s performance in the unbalanced and balanced database using the Oversample SMOTE and Random Undersampling techniques was evaluated. The anomaly detection models were trained using 70% of the valid data and tested using the 30% of remaining valid data (valid transactions) mixed to the anomalous data (fraudulent transactions). The same data percentage was used for test and training of SVM, although the data were not divided into normal data (valid transactions) and anomalies, just the hold-out process on the entire dataset was done. The Isolation forest technique got the best result in anomaly identification, 50% of precision, 99.4% of accuracy, 26% on Recall, 34% on f1-Score and 0,6293 on ROC curve. The SVM Kernel Linear technique with Undersampling got the best result in the anomaly identification with data balancing technique, 100% of precision on anomaly identification, 99.6% of accuracy, 99.38% on Recall, 100% on f1-Score and ROC curve. The usage of Oversample SMOTE and Undersampling techniques made the SVM classifier able to get good results, however we must take into account that the synthetic data and the database reduction (core of both techniques) potentiate the classifier and its results. The classifier will not necessarily keep its good results in situations with real data only.


Colecciones: