Comparação de Imagens de Transformadas de Áudio para a Transcrição Musical Automática do Tipo Piano Roll
dissertacao_mestrado
RESUMO: Transcrição Musical Automática (AMT, do inglês Automated Music Transcription) se traduz na construção de algoritmos para converter sinais acústicos de música em alguma forma de notação musical no campo de Inteligência Artificial. Este trabalho versará especificamente de uma classe de problema, que é a transcrição para a notação do tipo piano roll, um problema multirrótulo. A proposta desse estudo apresenta duas investigações. A primeira investigação compara cinco diferentes representações de entrada de um sistema de transcrição para determinar a mais adequada para uso com redes neurais, o espectrograma, o mel-espectrograma, o tempograma, o MFCC e o cromagrama. Usando o melhor resultado de transformação de áudio da investigação anterior, a segunda investigação avalia se o treinamento dos modelos de redes neurais por compositor melhora os resultados. Três tipos de experimentos são realizados: (i) modelo treinado com um conjunto de músicas dos vários compositores; (ii) modelo treinado separadamente para cada um dos dez compositores e; (iii) modelo com duas etapas seguidas de treinamento: o modelo de (i) seguido de um ajuste fino por compositor. A base de dados do trabalho é a MusicNet, que possui mais de 34 horas de áudios gravados de música clássica, com mais de 1 milhão de rótulos. As métricas usadas neste trabalho são precisão média, precisão, revocação e acurácia. Na primeira investigação, os resultados apresentados de duas imagens, espectrograma e Mel-espectrograma, foram similares e para as outras três, MFCC, Cromagrama e Tempograma, os resultados foram piores. Para se calcular o MFCC, Cromagrama e o Tempograma são adicionadas novas camadas de convoluções e técnicas de processamento no áudio e isso pode ter gerado uma perda de informação e degradação da precisão. Os resultados dos experimentos da segunda investigação não indicam uma melhoria vantajosa no treinamento por compositor e por isso indica-se que o caminho para melhoria de performance está na investigação de arquiteturas de redes neurais mais complexas com camadas de self-attention.
ABSTRACT: Automated Music Transcription (AMT) refers to the development of algorithms to convert acoustic music signals into some sort of symbolic notation in the field of Artificial Intel ligence. This work will specifically address one class of problem, which is transcription into piano roll notation, a multi-label problem. The proposal of this study presents two investigations. The first investigation compares five different input representations of a transcription system to determine the most suitable for use with neural networks: the spectrogram, the mel-spectrogram, the tempogram, the MFCC, and the chromagram. Using the best audio transformation result from the previous investigation, the second investigation evaluates whether training neural network models by composer improves the results. Three types of experiments are performed: (i) a model trained with a set of music from various composers; (ii) a model trained separately for each of the ten composers; and (iii) a two-step training model: the model from (i) followed by fine-tuning by composer. The dataset of the work is MusicNet, which has more than 34 hours of recorded classical music, with more than 1 million labels. The metrics used in this work are average preci sion, precision, recall, and accuracy. In the first investigation, the results presented for spectrogram and Mel-spectrogram transformations, were similar and for the other three, MFCC, Chromagram, and Tempogram, the results were worse. To calculate the MFCC, Chromagram, and Tempogram, new processing is done on the spectrogram. These new transformations may have information loss and, consequently, a degradation of precision. The results of the experiments in the second investigation do not indicate an advantageous improvement in training by composer, and the path to improving performance lies in the investigation of more complex neural network architectures with self-attention layers.
Redes Sociais