Classificação de relevância de atendimentos de uma base de help desk por meio de técnicas de processamento de linguagem natural

Degasperi, Marciel Mario (2023)

dissertacao_mestrado

RESUMO: Sistemas de Help Desk possuem uma vasta e rica base de informações, composta pelo histórico de atendimentos realizados, que pode e deve ser utilizada como base de consulta para atendimentos seguintes. Ferramentas comuns de busca, como buscas por palavras-chave, mostram-se inviáveis em grandes datasets, além de poderem trazer resultados não necessariamente relacionados ao problema. Técnicas estado-da-arte existem, mas exigem grande custo computacional e operacional para seu treinamento e utilização. Nesse sentido, a proposta deste trabalho é investigar a capacidade de algoritmos de aprendizado de máquina em encontrar a característica aqui definida como “relevância”: a característica de textos com conhecimento que possa ser reutilizado. A motivação é que os textos não relevantes possam ser removidos antecipadamente da base de dados, permitindo que algoritmos complexos possam ser empregados em uma base de dados mais condensada, reduzindo-se os custos computacionais. Foram realizados testes com diversas combinações entre o vetorizador TF-IDF e o word embedding Doc2Vec e os classificadores clássicos Naive-Bayes, Adaptive Boosting, Floresta Aleatória, Stochastic Gradient Descent, Regressão Logística, Support Vector Machine e Light Gradient Boosting Machine, e o classificador TextConvoNet, uma arquitetura baseada em Redes Neurais Convolucionais. O classificador TextConvoNet apresentou os melhores resultados, com acurária e F1-score próximas a 0,93, mostrando que o conceito é detectável e que a técnica é viável para a remoção de textos não relevantes de uma base de dados.

ABSTRACT: Service Desk systems have a vast and rich information base, consisting of the history of calls made, which can and should be used as a reference base for subsequent calls. Common search tools, such as keyword searches, prove to be unfeasible in large datasets, in addition to being able to bring results not necessarily related to the problem. There are several "state-of-the-art" approaches; however, these approaches generally require a high computational and operational costs, both for their training and for their use. In this context, this work aims to investigate the ability of machine learning algorithms in finding the characteristic defined here as "relevance": the characteristic of texts with knowledge that can be reused. The motivation is that non-relevant texts can be removed in advance from the database, allowing complex algorithms to be employed in a more condensed database, reducing computational costs. Tests were performed with several combinations between the TF-IDF vectorizer and the word embedding Doc2Vec and the classic classifiers Naive-Bayes, Adaptive Boosting, Random Forest, Stochastic Gradient Descent, Logistic Regression, Support Vector Machine and Light Gradient Boosting Machine, and the classifier TextConvoNet, an architecture based on Convolutional Neural Networks. The TextConvoNet classifier presented the best results, with accuracy and f1-score close to 0.93, showing that the concept is detectable and that the technique is viable for removing non-relevant texts from a database.


Collections: