Reconhecimento de entidades nomeadas em documentos de editais de compras utilizando aprendizado profundo

Silva, Messias Gomes da (2022)

dissertacao_mestrado

Desde o surgimento do termo Entidade Nomeada (EN) em 1996, a tarefa Reconhecimento de Entidades Nomeadas (REN) ganhou grande interesse da comunidade de Processamento de Linguagem Natural (PLN). A tarefa de REN consiste em identificar e classificar automaticamente entidades de interesse, como nome de pessoas, lugares, organizações, entre outros, a partir de documentos textuais. Ao aplicar sistemas de REN em um domínio específico, a complexidade da tarefa é aumentada e, geralmente, há a necessidade da construção ou utilização de um corpus específico para esse domínio. Neste trabalho, investigou-se a aplicação de modelos de redes neurais profundas para tarefa de REN visando identificar entidades de interesse em editais de licitações de compras escritos em português do Brasil. Inicialmente, foram avaliadas arquiteturas baseadas em redes neurais profundas, especialmente usando uma Bidirectional Long Short-Term Memory (BiLSTM) com o algoritmo Conditional Random Field (CRF), chamada de BiLSTM-CRF, em conjunto com representações baseadas em word embeddings tradicionais (Glove e Word2vec) e contextuais (BERT, Elmo e Flair). Os modelos de embeddings foram avaliados isoladamente e de forma combinada. As arquiteturas foram avaliadas em diversos experimentos utilizando os corpora do Harem (Total e Seletivo), Paramopama e LeNER. Com base nos resultados experimentais obtidos, pode-se concluir que a BiLSTM-CRF BERT Large -W2V, que foi a arquitetura construída com base na combinação dos embeddings extraídos do BERT Large e Word2vec, obteve os melhores resultados nos experimentos realizados e apresentou desempenho competitivo com outros sistemas do estado da arte no corpus Harem (Total e Seletivo). Posteriormente, um processo de anotação foi conduzido para identificação e classificação das entidades de interesse no domínio de editais de compra. Com isso, foi realizada a construção de um corpora contendo documentos de editais dos estados: Espírito Santo (ES), Minas Gerais (MG), Rio de Janeiro (RJ) e São Paulo (SP). Após o processo de anotação e revisão, os corpora foram utilizados em uma série de experimentos realizados para escolher o melhor modelo, o qual também foi baseado em uma BiLSTM-CRF, porém em conjunto somente com os word embeddings Glove, Word2Vec e BERT. Com base nos resultados experimentais obtidos, concluiu-se que o melhor modelo foi alcançado através de uma arquitetura usando BERT Base com o Word2vec Skip-gram que recebeu o nome BiLSTM-CRF BERT Base-W2V.