Muzca – Rhythm Representation Studies

Martínez, DanielAponte Segura, AlfredoMuzca – Rhythm Representation StudiesUniversidad Icesi2025Representación rítmicaAprendizaje profundoAnálisis computacional de ritmoFWODEspectrogramas MelRedes neuronales convolucionalesRhythmic representationDeep learningComputational rhythm analysisFWODMel spectrogramsConvolutional neural networksTesis de Maestría en Ciencia de DatosReproducción del sonido - Técnicas digitalesSound - Recording and reproducing - Digital techniquesMy UniversityMy UniversityGómez, DanielGiraldo, Jose2026-03-042026-03-042025-06-27spamaster thesishttps://hdl.handle.net/10906/130576https://biblioteca2.icesi.edu.co/cgi-olib/?oid=366450instname:Universidad Icesireponame:Biblioteca Digitalrepourl:https://repository.icesi.edu.co/41 páginasDigitalapplication/pdfEL AUTOR, expresa que la obra objeto de la presente autorización es original y la elaboró sin quebrantar ni suplantar los derechos de autor de terceros, y de tal forma, la obra es de su exclusiva autoría y tiene la titularidad sobre éste. PARÁGRAFO: en caso de queja o acción por parte de un tercero referente a los derechos de autor sobre el artículo, folleto o libro en cuestión, EL AUTOR, asumirá la responsabilidad total, y saldrá en defensa de los derechos aquí autorizados; para todos los efectos, la Universidad Icesi actúa como un tercero de buena fe. Esta autorización, permite a la Universidad Icesi, de forma indefinida, para que en los términos establecidos en la Ley 23 de 1982, la Ley 44 de 1993, leyes y jurisprudencia vigente al respecto, haga publicación de este con fines educativos.http://creativecommons.org/licenses/by-nc-nd/4.0/info:eu-repo/semantics/openAccessAttribution-NonCommercial-NoDerivatives 4.0 Internationalhttp://purl.org/coar/access_right/c_abf2Este trabajo presenta un enfoque basado en aprendizaje profundo para predecir representaciones rítmicas explicables directamente a partir de archivos de audio (.WAV). La representación utilizada, denominada Densidad de Inicio Ponderada por Frecuencia (FWOD), permite sintetizar la densidad rítmica de un compás en un vector unidimensional de 16 valores. En una fase inicial, se validó la utilidad de FWOD como descriptor rítmico mediante la aplicación de modelos de clasificación sobre datos simbólicos (archivos MIDI), logrando una precisión del 90,5% y superando trabajos previos de vanguardia. Este resultado sirvió como base para la segunda fase del proyecto, centrada en la predicción del vector FWOD a partir de audio real mediante modelos convolucionales (CNN) entrenados en espectrogramas de Mel. El conjunto de datos final se construyó a partir de la correspondencia entre los archivos .MIDI y .WAV del conjunto de datos MIDI Groove de Magenta, ajustado y alineado para facilitar la comparación entre ambas representaciones. Se exploraron la arquitectura, la regularización y las variantes de conjunto, alcanzando un MAE mínimo de 0,1836 con un R² estimado de 0,70. Los resultados confirman la viabilidad de FWOD como puente entre la señal acústica y el análisis rítmico computacional, abriendo nuevas posibilidades para el desarrollo de marcos explicables de clasificación musical centrados en la percusión (Choi et al., 2017; Gómez-Marín et al., 2024).This work presents a deep learning-based approach for predicting explainable rhythmic representations directly from audio files (.WAV). The representation used, called Frequency-Weighted Onset Density (FWOD), allows synthesizing the rhythmic density of a measure into a one-dimensional vector of 16 values. In an initial phase, the usefulness of FWOD as a rhythmic descriptor was validated by applying classification models on symbolic data (MIDI files), achieving 90.5% accuracy and surpassing previous state-of-the-art works. This result served as a baseline for the second phase of the project, focused on predicting the FWOD vector from real audio using convolutional models (CNN) trained on Mel spectrograms. The final dataset was constructed from the correspondence between .MIDI and .WAV files from Magenta's Groove MIDI Dataset, adjusted and aligned to facilitate comparison between both representations. Architecture, regularization, and ensemble variants were explored, reaching a minimum MAE of 0.1836 with an estimated R² of 0.70. The results confirm the viability of FWOD as a bridge between acoustic signal and computational rhythm analysis, opening new possibilities for the development of explainable musical classification frameworks focused on percussion (Choi et al., 2017; Gómez - Marín et al., 2024).Introducción . . . 6 -- Contexto y antecedentes . . . 7 -- Árbol del problema . . . 8 -- Problema Central . . . 9 -- Dificultad en el análisis de patrones musicales . . . 9 -- Clasificación ineficiente de patrones musicales . . . 9 -- Limitaciones en la generación de música . . . 9 -- Naturaleza multidimensional de los sonidos musicales . . . 9 -- Limitaciones de las representaciones actuales . . . 10 -- Falta de validación de nuevas representaciones . . . 10 -- Relación con el proyecto Muzca . . . 10 -- Objetivos . . . 11 -- Objetivo General . . . 11 -- Objetivos Específicos . . . 11 -- Metodología . . . 11 -- Fases del proceso . . . 13 -- Comprensión del Problema . . . 13 -- Análisis de los Datos . . . 13 -- Preparación de los Datos . . . 14 -- Construcción del dataset experimental . . . 15 -- Modelado . . . 15 -- Evaluación . . . 16 -- Roles y Dinámica del Equipo . . . 16 -- Fundamentos de Representación y Percepción Rítmica . . . 16 -- Representación Musical . . . 17 -- Simplificación rítmica y percepción . . . 17 -- Frequency - Weighted Onset Density (FWOD) . . . 17 -- Clasificación y Generación de Ritmos . . . 18 -- Clasificación de ritmos desde MIDI usando FWOD . . . 18 -- Rhythm Space . . . 19 -- Estado del arte . . . 19 -- Propuesta . . . 20 -- Viabilidad y selección del dataset experimental . . . 21 -- Predicción de ritmo desde audio real . . . 21 -- Tratamiento y preparación del dataset . . . 21 -- Generación del mel_fwod_dataset.npz . . . 22 -- División del dataset . . . 23 -- Modelado de FWOD desde espectrogramas Mel . . . 24 -- Métricas de evaluación . . . 24 -- Estrategias evaluadas . . . 24 -- Validación y aprendizaje . . . 27 -- Limitaciones . . . 28 -- Dependencia de la Calidad y Variedad del Dataset . . . 29 -- Desbalance en la Distribución de Clases . . . 29 -- Limitaciones técnicas de los modelos . . . 29 -- Conclusiones y trabajo futuro . . . 30 -- Conclusiones generales . . . 30 -- Perspectivas del framework FWOD . . . 30 -- Líneas de trabajo futuro . . . 31 -- Referencias . . . 32 -- Anexos . . . 34 -- Anexo A. Resultados detallados del alcance inicial: MIDI → FWOD → Clasificación . 34 -- Modelos evaluados . . . 34 -- Configuraciones del dataset . . . 34 -- Cuadro resumen de resultados (Accuracy) . . . 34 -- Principales hallazgos . . . 35 -- Figuras y métricas adicionales . . . 35 -- Anexo B. Rhythm Space: Resultados detallados . . . 37 -- Tratamiento del dataset . . . 37 -- Modelos implementados . . . 37 -- Principales resultados . . . 38 -- Anexo C. Resultados comparativos de los modelos CNN aplicados a audio real . 39