Detecção de onsets em áudio usando espectrogramas e processamento de imagens e sinais

Koscky, Ricardo Vieira (2017)

Dissertação de mestrado

RESUMO: Este trabalho trata da detecção dos eventos sonoros relevantes ao sistema auditivo, chamados de onsets. Essa detecção é a base da segmentação do sinal de áudio, sendo um ponto de partida para tarefas mais complexas no campo de recuperação de informação da música, tais como detecção do tempo e transcrição musical. Algumas circunstâncias trazem dificuldades a essa detecção, tais como a presença de ruído no sinal, a polifonia de notas, a assincronia entre músicos e a aplicação de efeitos durante a produção musical, além de diferenças na percepção sonora de cada indivíduo. Além disso, devido à diversidade dos sinais de áudio, os onsets se dividem em percussivos e não-percussivos. Por isso, há diversos algoritmos de detecção disponíveis, utilizando as mais variadas técnicas. A ferramenta que serve de base para as principais técnicas do estado da arte é o espectrograma, que é uma tradução do sinal audível numa imagem que se assemelha às formas de registro musical (partitura). Neste trabalho, o espectrograma é submetido a técnicas de processamento digital de imagem e, depois, a técnicas de processamento digital de sinais. Como contribuições do trabalho, é analisada a influência dos parâmetros de geração do espectrograma e são introduzidas as inovações de filtro de frequências e de gradiente com máscara de dissimilaridade estendida, de limiarização adaptativa por proeminência e de um bloco inédito de agrupamento, num novo algoritmo de detecção, o KFlux, que além de detectar o tempo dos onsets, entrega também sua intensidade em dB na saída. Adicionalmente, um cenário utilizando fusão com diferentes configurações nos parâmetros do algoritmo também é experimentado. Os testes foram executados numa base de dados bem balanceada entre onsets percussivos e não-percussivos contendo sinais de áudio diversos, obtendo F₁ = 0,9005 no cenário da fusão, com apenas cinco configurações combinadas.

ABSTRACT: This work deals with the detection of sound events relevant to the auditory system, called onsets. This detection is the basis for audio segmentation, being a starting point for more complex tasks in the music information retrieval field, such as tempo detection and music transcription. Some circumstances bring difficulties to the detection, such as the presence of noise in the signal, the note polyphony, the asynchrony among musicians and the application of effects during musical production, as well as differences in the sound perception of each individual. In addition, due to the diversity of audio signals, the onsets are divided into percussive and non-percussive. For this reason, there are several detection algorithms available, using the most assorted techniques. The tool that underlies the state of the art techniques is the spectrogram, which is a translation of the audible signal into an image that resembles musical registering forms (musical score). In this work, the spectrogram is subjected to digital image processing and, then, to digital signal processing techniques. As contributions of the work, the influence of spectrogram generation parameters is analyzed and the innovations of frequency filter and gradient filter with extended dissimilarity kernel, of adaptive thresholding by prominence and of a novel clustering block are introduced in a new detection algorithm, KFlux, which in addition to detecting the onsets timing, also delivers their intensity in dB at the output. Additionally, a scenario using fusion with different configurations in the algorithm parameters is also experienced. Tests were run on a well-balanced database among percussive and non-percussive onsets containing diverse audio signals, obtaining F₁ = 0.9005 in the fusion scenario, with only five configurations combined.


Collections: