Classificador idiomático para português do Brasil e de Portugal

Correia, André Rodrigues (2023-12-12)

tcc

RESUMO: Com o avanço da tecnologia, especialmente no campo da inteligência artificial, é cada vez mais comum o atendimento inicial em plataformas de mensagens ser realizado por chatbots. Estes desempenham um papel crucial não apenas na eficiência do atendimento, mas também na preparação de dados relevantes para futuras interações humanas. A localização do cliente, por exemplo, torna-se um dado significativo, especialmente para empresas com atuação em diferentes países que compartilham o mesmo idioma. Este trabalho propõe um classificador idiomático dedicado a distinguir se um texto em português pertence ao português do Brasil ou de Portugal. Para atingir esse objetivo, foram empregadas técnicas avançadas de processamento de linguagem natural (NLP), utilizando ferramentas como a biblioteca NLTK. O treinamento do modelo envolveu diversos conjuntos de dados, e a avaliação da eficácia dos algoritmos naive bayes, maximum entropy e decision tree foi realizada através da mensuração da acurácia. Como parte prática da implementação, foi desenvolvido um plugin e uma API, ampliando as possibilidades de integração e uso do classificador. Os resultados obtidos revelaram uma taxa de acurácia de aproximadamente 88%, com o algoritmo maximum entropy, consolidando a eficácia do modelo proposto.

ABSTRACT: With the advancement of technology, especially in the field of artificial intelligence, it is increasingly It is increasingly common for initial support on messaging platforms to be carried out by chatbots. These play a crucial role not only in the efficiency of the service, but also in preparing relevant data for future interactions human. The customer’s location, for example, becomes significant data, especially for companies operating in different countries that share the same language. This work proposes an idiomatic classifier dedicated to distinguishing whether a text in Portuguese belongs to Brazilian or Portuguese Portuguese. To reach To achieve this goal, advanced language processing techniques were used (NLP), using tools such as the NLTK library. Model training involved several data sets, and evaluating the effectiveness of naïve algorithms bayes, maximum entropy and decision tree Decision Tree was carried out through measuring accuracy. As a practical part of the implementation, a plugin and an API, expanding the possibilities of integration and use of the classifier. You results obtained revealed an accuracy rate of approximately 88%, with the maximum entropy algorithm, consolidating the effectiveness of the proposed model.


Collections: