Auxílio ao tratamento de desvio fonológico utilizando um sistema de reconhecimento de fala automático
tcc
RESUMO: Pessoas de diferentes faixas etárias podem enfrentar dificuldades que as impedem de serem compreendidas verbalmente, seja devido a acidentes degenerativos ou problemas relacionados ao desenvolvimento da linguagem. Com o objetivo de solucionar essa questão, este trabalho propõe o desenvolvimento de um sistema que se baseia na tecnologia de reconhecimento automático de fala, visando proporcionar exercícios interativos que auxiliem os profissionais de fonoaudiologia na avaliação do progresso da comunicação verbal de seus pacientes. Esse sistema inclui a implementação de um modelo de deep learning, composto por uma rede neural convolucional e uma rede neural recorrente. Essas redes serão treinadas com áudios selecionados e categorizados, que serão convertidos em um espectrograma mel pelo sistema antes de serem utilizados no modelo de deep learning. Após o treinamento, o modelo será capaz de analisar o áudio do paciente, fornecendo um feedback. Ao final do trabalho, foram obtidos três modelos eficientes para a detecção de fonemas, utilizando um subconjunto do conjunto de dados TIMIT. O melhor modelo alcançou uma precisão de 91,01%. Em seguida, os três modelos foram treinados com um conjunto de dados contendo sons surdos e sonoros, utilizando técnicas de aumento de dados (data augmentation).
ABSTRACT: People of various ages may experience some form of difficulty that prevents them from being verbally understood, whether due to degenerative accidents or inherent problems in linguistic development. In order to solve this problem, the present work aims to develop a system based on automatic speech recognition technology, in order to provide exercises that assist the work of speech therapists during the process of evaluating the improvement in verbal communication of their patients. In this system, a deep learning model is implemented, which consists of a convolutional neural network combined with a recurrent neural network, and is trained with selected and properly categorized audios that are previously converted into a mel spectrogram by the system before being fed into the deep learning model. After training, the model will be able to analyze the patient’s audio, thus making it possible to obtain precise and relevant feedback. At the end of the work, three efficient models were obtained for phoneme detection using a subset of the TIMIT dataset, with the best model achieving an accuracy of 91.01%.
Redes Sociais