Redes neurais siamesas LSTM para determinação de similaridades entre pares de sentenças literárias

Santos, Harã Heique dos (2021)

tcc

Neste trabalho de conclusão de curso, foi realizada uma análise investigativa relativa à determinação de similaridades entre pares de sentenças de renomados escritores da literatura norte-americana usando rede neurais siamesas com sub-redes Long Short Term Memories (LSTMs). As três bases de dados usadas para treinamento, validação e teste dos modelos foram construídas a partir da extração, limpeza e organização de 72600 sentenças de 35 obras literárias dos autores norte-americanos William Cuthbert Faulkner, Ernest Miller Hemingway e Philip Milton Roth. Antes de fornecer os pares de sentenças como entradas às redes neurais siamesas, foi realizado um processo de word embedding das palavras a partir de um modelo pré-treinado Word2Vec. O processo de extração de features das sentenças, bem como o de aprendizagem e a predição das similaridades foi realizado por meio de sub-redes LSTM usando a medida de similaridade de Manhattan acopladas em uma arquitetura siamesa de compartilhamento de pesos sinápticos. A escolha das LSTMs se deve ao fato de elas serem redes neurais recorrentes com memória de longo prazo comumente aplicadas com sucesso em tarefas da área de processamento da linguagem natural (PLN). Já a escolha da arquitetura siamesa deve-se à estratégia metodológica de comparação de sentenças par a par. Os resultados obtidos reforçam a dificuldade inerente à captura e identificação de um ethos literário usando representações densas não contextuais de palavras, mesmo usando arquiteturas baseadas em aprendizado profundo.

In this undergraduate thesis, an investigative analysis concerning the determination of similarities between sentence pairs of renowned writers of North American literature was carried out using siamese neural networks with Long Short Term Memories (LSTMs) subnets. The three databases used for training, validating, and testing the models were built by extracting, cleaning and organizing 72600 sentences from 35 literary works by American authors: William Cuthbert Faulkner, Ernest Miller Hemingway and Philip Milton Roth. Before providing the pairs of sentences as inputs to the siamese neural networks, a process of word embedding of words was carried out using a pre-trained model Word2Vec. The process of extracting features from the sentences, as well as learning and predicting similarities was performed through LSTM subnets using the Manhattan similarity measure coupled in a siamese architecture, that is, with sharing of synaptic weights. The adoption of LSTMs is due to the fact that they are recurrent neural networks with long-term memory commonly applied successfully in tasks of natural language processing (PLN) area. In turn, the choice of the siamese architecture is due to the methodological approach of pairwise sentences comparison. The results obtained reinforce the inherent difficulty in capturing and identifying a literary ethos using dense non-contextual representations of words, even using architectures based on deep learning.


Collections: