Notícias
Artigo identifica nova técnica para catalogar gêneros musicais
Em eletrônicos
As pessoas já estão acostumadas a realizarem as suas atividades ouvindo músicas ou a identificá-las quando escutam um som durante o seu dia-a-dia. Um artigo publicado pelo pesquisador de Engenharia da Computação do Campus Toledo, Andrés Eduardo Coca Salazar, estudou a melhor técnica para que um gênero musical seja reconhecido automaticamente. Com essa nova tecnologia, segundo ele, catalogar músicas ou playlists por gêneros específicos ficará muito mais fácil. O resultado dos estudos foi publicado no artigo "Mineração hierárquica com redes complexas para classificação de gênero musical (Hierarchical mining with complex networks for music genre classification)”, da revista Digital Signal Processing (DSP).
“A classificação de gênero é uma tarefa comum que as pessoas fazem de forma consciente ou inconsciente. Por exemplo, quando estamos assistindo TV, no supermercado ou quando passa um carro na rua e ouvimos uma música desconhecida, quase que instantaneamente conseguimos identificar qual é o seu gênero. Isso é possível porque temos aprendido quais são as características dos gêneros musicais mais populares. Neste artigo, foi proposto um novo método para que um dispositivo eletrônico possa realizar essa tarefa de forma automática, o que permite o desenvolvimento e aprimoramento de aplicações especializadas para organizar músicas no computador, no celular ou em plataformas web, como Youtube”, explica o professor Andrés.
De acordo com o pesquisador, para classificar o estilo em algum dos gêneros previamente aprendidos pelo sistema, usa-se um fragmento do arquivo digital da canção, que contém o sinal de áudio. Para esse sinal é calculado o espectrograma, que é uma imagem que mostra como variam no tempo a frequência e a intensidade. “Dentre os diferentes tipos de espectrogramas existentes foi escolhido o mel-espectrograma porque ele preserva as características da reposta em frequência do ouvido humano”, explica.
Segundo o artigo, para o mel-espectrograma foram aplicadas duas técnicas de processamento digital de imagens: GLCM (gray level co-ocurrence matrix) e a superpixels. A primeira representa a textura mediante a transição entre pixels e a segunda agrupa pixels segundo a sua similaridade. Outra técnica computacional usada foi a teoria de redes complexas, que representa os dados (nós) mediante as conexões existentes entre eles (arestas). Dessa forma, dois tipos de redes complexas foram gerados, uma usando a matriz GLCM e outra com os superpixels.
Da rede GLCM foram extraídas medidas topológicas e texturais, e da rede de superpixels medidas topológicas. Esse conjunto de medidas foi complementado com medidas acústicas do sinal de áudio. O conjunto completo de medidas foi usado para treinar um algoritmo classificador, obtendo um resultado satisfatório. E, para melhorar esse resultado, foram adicionadas medidas topológicas da subrede GLCM que pode ser gerada com os pixels internos de um nó da rede de Superpixels, conceito que foi nomeado no documento como Mineração Hierárquica.
“A exatidão com essa nova adaptação superou a acurácia reportada por vários métodos existentes na literatura com valores acima de 90%”, completa Andrés Salazar.
O método foi testado usando os três bancos de dados mais populares para o estudo de gêneros musicais: GTZAN, Homburg e ISMIR 2004. Outro diferencial foi que para o GTZAN foi realizada uma análise detalhada através da combinação de medidas dos três domínios (visual, topológico e acústico), e usando uma equação para ranquear a precisão, nomeada como RLS (Ranking Logarithmic Score).
Com essa metodologia, como a geração das redes a partir do espectrograma independe da teoria musical, Salazar explica que ela poderá ser usada também para classificar imagens médicas como tomografias, raios-X ou imagens histopatológicas de câncer de mama, auxiliando o diagnóstico de doenças.
Agora, o pesquisador está desenvolvendo uma nova metodologia usando a técnica LBP (Local Binary Pattern) e as suas variantes.