Reconhecimento de comandos de voz via aprendizado profundo

Potin, Timóteo de Rezende (2021)

tcc

RESUMO: Na última década o reconhecimento automático da voz vem se tornando, impulsionado pelo aumento do poder computacional disponível e por avanços em campos como inteligência artificial e aprendizado de máquinas, uma tecnologia cada vez mais presente no cotidiano da população. Seja por razões de acessibilidade ou simplesmente por praticidade, dar comandos de voz para aparelhos como smartphones, assistentes virtuais e outros dispositivos smart vem se tornando parte da rotina de uma parcela considerável da população. Nesse contexto, este trabalho apresenta um estudo acerca de como desenvolver um sistema de reconhecimento de comandos de voz com vocabulário limitado baseado em redes neurais profundas. Para tanto, são testadas três diferentes estratégias para extração de características de um sinal de voz, sendo elas Transformada de Fourier de Tempo Curto, Aplicação de Banco de Filtros em Escala Mel e Coeficientes Mel-Cepstrais. Essas três técnicas serão combinadas com classificadores baseados em redes convolucionais e redes recorrentes. Ao fim são evidenciadas e discutidas as diferenças de desempenho entre cada um dos modelos propostos.

ABSTRACT: Throughout the last decade automatic speech recognition, due to more computational power availability and advances in the field of artificial intelligence and machine learning, is becoming a technology increasingly present on daily life. Either for accessibility rea-sons or simply for practicality, using voice commands to control devices like smartphones and virtual assistants is quickly becoming part of the routine. In this context, this work presents a study about how to develop a automatic speech recognition system with limited vocabulary based on deep neural networks. For this three different strategies for feature extraction in a voice signal are tested: Short-Time Fourier Transform, Log Mel Spectrograms and Mel-Frequency Cepstral Coefficients. These three techniques are tested with classifiers based on convolutional neural networks and recurrent neural networks. Finally, the results are evaluated and the differences between each proposed model are highlighted.


Collections: