Logo_Icesi
 

Muzca – Rhythm Representation Studies

Miniatura

Fecha

2025-06-27

Autores

Martínez, Daniel
Aponte Segura, Alfredo

Director de tesis/Asesor

Título de la revista

ISSN de la revista

Título del volumen

Publicador

Universidad Icesi

Editor

Compartir

Documentos PDF

Resumen

Este trabajo presenta un enfoque basado en aprendizaje profundo para predecir representaciones rítmicas explicables directamente a partir de archivos de audio (.WAV). La representación utilizada, denominada Densidad de Inicio Ponderada por Frecuencia (FWOD), permite sintetizar la densidad rítmica de un compás en un vector unidimensional de 16 valores. En una fase inicial, se validó la utilidad de FWOD como descriptor rítmico mediante la aplicación de modelos de clasificación sobre datos simbólicos (archivos MIDI), logrando una precisión del 90,5% y superando trabajos previos de vanguardia. Este resultado sirvió como base para la segunda fase del proyecto, centrada en la predicción del vector FWOD a partir de audio real mediante modelos convolucionales (CNN) entrenados en espectrogramas de Mel. El conjunto de datos final se construyó a partir de la correspondencia entre los archivos .MIDI y .WAV del conjunto de datos MIDI Groove de Magenta, ajustado y alineado para facilitar la comparación entre ambas representaciones. Se exploraron la arquitectura, la regularización y las variantes de conjunto, alcanzando un MAE mínimo de 0,1836 con un R² estimado de 0,70. Los resultados confirman la viabilidad de FWOD como puente entre la señal acústica y el análisis rítmico computacional, abriendo nuevas posibilidades para el desarrollo de marcos explicables de clasificación musical centrados en la percusión (Choi et al., 2017; Gómez-Marín et al., 2024).


Abstract

This work presents a deep learning-based approach for predicting explainable rhythmic representations directly from audio files (.WAV). The representation used, called Frequency-Weighted Onset Density (FWOD), allows synthesizing the rhythmic density of a measure into a one-dimensional vector of 16 values. In an initial phase, the usefulness of FWOD as a rhythmic descriptor was validated by applying classification models on symbolic data (MIDI files), achieving 90.5% accuracy and surpassing previous state-of-the-art works. This result served as a baseline for the second phase of the project, focused on predicting the FWOD vector from real audio using convolutional models (CNN) trained on Mel spectrograms. The final dataset was constructed from the correspondence between .MIDI and .WAV files from Magenta's Groove MIDI Dataset, adjusted and aligned to facilitate comparison between both representations. Architecture, regularization, and ensemble variants were explored, reaching a minimum MAE of 0.1836 with an estimated R² of 0.70. The results confirm the viability of FWOD as a bridge between acoustic signal and computational rhythm analysis, opening new possibilities for the development of explainable musical classification frameworks focused on percussion (Choi et al., 2017; Gómez - Marín et al., 2024).

Resumo

Descripción

Palabras clave

Representación rítmica, Aprendizaje profundo, Análisis computacional de ritmo, FWOD, Espectrogramas Mel, Redes neuronales convolucionales, Tesis de Maestría en Ciencia de Datos

Keywords

Rhythmic representation, Deep learning, Computational rhythm analysis, FWOD, Mel spectrograms, Convolutional neural networks,

Palavras-chave

Citación

DOI

Handle

ISBN

ISSN

URL

YouTube

Creative Commons License
Excepto si se señala otra cosa, la licencia del ítem se describe como Attribution-NonCommercial-NoDerivatives 4.0 International.