Arquiteturas de redes neurais profundas para classificação de dialetos e sotaques

Tostes, Wagner Arca (2022-02-08)

dissertacao_mestrado

RESUMO A classificação automática de sotaques possui diversas aplicações potenciais como a identificação e autenticação de usuários, ferramentas de investigação forense e a seleção de modelos especializados para as conversões de texto em fala (text-to-speech) e fala em texto (speech-to-text). Neste trabalho, propomos e avaliamos diversas arquiteturas de redes neurais artificiais para a tarefa de classificação de dialetos e sotaques. Em particular, é desenvolvida uma arquitetura baseada em convoluções 1D sobre faixas frequências de espectrogramas seguidas por redes recorrentes do tipo Long Short-Term Memory. Para avaliação destas arquiteturas foram utilizadas as bases de dados Braccent, Ynoguti e the IViE Corpus, além de subconjuntos das bases Speech Accent Archive e AiShell 3. As redes neurais alcançaram boa performance em todas as bases de dados com acurácia máxima de 90% na base Braccent, 93% na base Ynoguti, 96% na base IViE Corpus, 60% na base Speech Accent Archive e 61% na base AiShell 3. Embora existam muitos trabalhos na literatura que abordem a identificação de sotaques e dialetos em outras línguas, este é um dos primeiros trabalhos que usam bases de dados do português brasileiro e a performance preditiva alcançada indica que os modelos propostos são promissores.

ABSTRACT The automatic classification of accents has several potential applications, for instance, the identification and authentication of users, forensic investigation tools, and the selection of specialized models in text-to-speech and speech-to-text systems. In this work, we propose and evaluate several architectures of artificial neural networks to classify dialects and accents. In particular, an architecture based on 1D convolutions over spectrogram frequency bands followed by recurrent Long Short-Term Memory networks. To evaluate these architectures, the datasets Braccent, Ynoguti and the IViE Corpus we employed, along with subsets of the Speech Accent Archive and the AiShell 3. The neural networks achieved good performance in all datasetse with maximum accuracy of 90% in the dataset Braccent, 93% in the Ynoguti, 96% in the IViE Corpus, 60% in the Speech Accent Archive and 61% in the AiShell 3. Although there are substantial works in the literature studying the identification of accents and dialects in other languages, this is one the first works to use Brazilian Portuguese datasets. The predictive performance achieved indicates that the proposed models are promising.