Muzca – Rhythm Representation Studies

Martínez, Daniel; Aponte Segura, Alfredo

Muzca – Rhythm Representation Studies

dc.audience	Todo Público
dc.contributor.advisor	Gómez, Daniel
dc.contributor.advisor	Giraldo, Jose
dc.contributor.author	Martínez, Daniel
dc.contributor.author	Aponte Segura, Alfredo
dc.coverage.spatial	Cali de Lat: 03 24 00 N degrees minutes Lat: 3.4000 decimal degrees Long: 076 30 00 W degrees minutes Long: -76.5000 decimal degrees.
dc.date.accessioned	2026-03-04T20:26:39Z
dc.date.available	2026-03-04T20:26:39Z
dc.date.issued	2025-06-27
dc.description.abstract	Este trabajo presenta un enfoque basado en aprendizaje profundo para predecir representaciones rítmicas explicables directamente a partir de archivos de audio (.WAV). La representación utilizada, denominada Densidad de Inicio Ponderada por Frecuencia (FWOD), permite sintetizar la densidad rítmica de un compás en un vector unidimensional de 16 valores. En una fase inicial, se validó la utilidad de FWOD como descriptor rítmico mediante la aplicación de modelos de clasificación sobre datos simbólicos (archivos MIDI), logrando una precisión del 90,5% y superando trabajos previos de vanguardia. Este resultado sirvió como base para la segunda fase del proyecto, centrada en la predicción del vector FWOD a partir de audio real mediante modelos convolucionales (CNN) entrenados en espectrogramas de Mel. El conjunto de datos final se construyó a partir de la correspondencia entre los archivos .MIDI y .WAV del conjunto de datos MIDI Groove de Magenta, ajustado y alineado para facilitar la comparación entre ambas representaciones. Se exploraron la arquitectura, la regularización y las variantes de conjunto, alcanzando un MAE mínimo de 0,1836 con un R² estimado de 0,70. Los resultados confirman la viabilidad de FWOD como puente entre la señal acústica y el análisis rítmico computacional, abriendo nuevas posibilidades para el desarrollo de marcos explicables de clasificación musical centrados en la percusión (Choi et al., 2017; Gómez-Marín et al., 2024).	spa
dc.description.abstract	This work presents a deep learning-based approach for predicting explainable rhythmic representations directly from audio files (.WAV). The representation used, called Frequency-Weighted Onset Density (FWOD), allows synthesizing the rhythmic density of a measure into a one-dimensional vector of 16 values. In an initial phase, the usefulness of FWOD as a rhythmic descriptor was validated by applying classification models on symbolic data (MIDI files), achieving 90.5% accuracy and surpassing previous state-of-the-art works. This result served as a baseline for the second phase of the project, focused on predicting the FWOD vector from real audio using convolutional models (CNN) trained on Mel spectrograms. The final dataset was constructed from the correspondence between .MIDI and .WAV files from Magenta's Groove MIDI Dataset, adjusted and aligned to facilitate comparison between both representations. Architecture, regularization, and ensemble variants were explored, reaching a minimum MAE of 0.1836 with an estimated R² of 0.70. The results confirm the viability of FWOD as a bridge between acoustic signal and computational rhythm analysis, opening new possibilities for the development of explainable musical classification frameworks focused on percussion (Choi et al., 2017; Gómez - Marín et al., 2024).	eng
dc.description.degreelevel	Magíster
dc.description.degreename	Trabajo de grado para optar al título de Magister en Ciencia de Datos
dc.description.tableofcontents	Introducción . . . 6 -- Contexto y antecedentes . . . 7 -- Árbol del problema . . . 8 -- Problema Central . . . 9 -- Dificultad en el análisis de patrones musicales . . . 9 -- Clasificación ineficiente de patrones musicales . . . 9 -- Limitaciones en la generación de música . . . 9 -- Naturaleza multidimensional de los sonidos musicales . . . 9 -- Limitaciones de las representaciones actuales . . . 10 -- Falta de validación de nuevas representaciones . . . 10 -- Relación con el proyecto Muzca . . . 10 -- Objetivos . . . 11 -- Objetivo General . . . 11 -- Objetivos Específicos . . . 11 -- Metodología . . . 11 -- Fases del proceso . . . 13 -- Comprensión del Problema . . . 13 -- Análisis de los Datos . . . 13 -- Preparación de los Datos . . . 14 -- Construcción del dataset experimental . . . 15 -- Modelado . . . 15 -- Evaluación . . . 16 -- Roles y Dinámica del Equipo . . . 16 -- Fundamentos de Representación y Percepción Rítmica . . . 16 -- Representación Musical . . . 17 -- Simplificación rítmica y percepción . . . 17 -- Frequency - Weighted Onset Density (FWOD) . . . 17 -- Clasificación y Generación de Ritmos . . . 18 -- Clasificación de ritmos desde MIDI usando FWOD . . . 18 -- Rhythm Space . . . 19 -- Estado del arte . . . 19 -- Propuesta . . . 20 -- Viabilidad y selección del dataset experimental . . . 21 -- Predicción de ritmo desde audio real . . . 21 -- Tratamiento y preparación del dataset . . . 21 -- Generación del mel_fwod_dataset.npz . . . 22 -- División del dataset . . . 23 -- Modelado de FWOD desde espectrogramas Mel . . . 24 -- Métricas de evaluación . . . 24 -- Estrategias evaluadas . . . 24 -- Validación y aprendizaje . . . 27 -- Limitaciones . . . 28 -- Dependencia de la Calidad y Variedad del Dataset . . . 29 -- Desbalance en la Distribución de Clases . . . 29 -- Limitaciones técnicas de los modelos . . . 29 -- Conclusiones y trabajo futuro . . . 30 -- Conclusiones generales . . . 30 -- Perspectivas del framework FWOD . . . 30 -- Líneas de trabajo futuro . . . 31 -- Referencias . . . 32 -- Anexos . . . 34 -- Anexo A. Resultados detallados del alcance inicial: MIDI → FWOD → Clasificación . 34 -- Modelos evaluados . . . 34 -- Configuraciones del dataset . . . 34 -- Cuadro resumen de resultados (Accuracy) . . . 34 -- Principales hallazgos . . . 35 -- Figuras y métricas adicionales . . . 35 -- Anexo B. Rhythm Space: Resultados detallados . . . 37 -- Tratamiento del dataset . . . 37 -- Modelos implementados . . . 37 -- Principales resultados . . . 38 -- Anexo C. Resultados comparativos de los modelos CNN aplicados a audio real . 39	spa
dc.format.extent	41 páginas
dc.format.medium	Digital
dc.format.mimetype	application/pdf
dc.identifier.OLIB	https://biblioteca2.icesi.edu.co/cgi-olib/?oid=366450
dc.identifier.instname	instname:Universidad Icesi
dc.identifier.reponame	reponame:Biblioteca Digital
dc.identifier.repourl	repourl:https://repository.icesi.edu.co/
dc.identifier.uri	https://hdl.handle.net/10906/130576
dc.language.iso	spa
dc.publisher	Universidad Icesi
dc.publisher.faculty	Barberi de Ingeniería, Diseño y Ciencias Aplicadas
dc.publisher.place	Santiago de Cali
dc.publisher.program	Maestría en Ciencia de Datos
dc.relation.references	Behzad, A., Jordà, S., Lee, K., & Kotowski, K. (2023). On the representation of drum patterns for rhythm style classification. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 31, 2307 – 2320. https://doi.org/10.1109/TASLP.2023.3283253	spa
dc.relation.references	Casey, M. A., Veltkamp, R. C., Goto, M., Leman, M., Rhodes, C., & Slaney, M. (2008). Content-based music information retrieval: Current challenges and future directions. Proceedings of the IEEE, 96 (4), 661 – 696. https://doi.org/10.1109/JPROC.2008.916370	spa
dc.relation.references	Choi, K., Fazekas, G., & Sandler, M. (2017). A comparison of neural network models for audio event detection. In 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (pp. 2352 – 2356). IEEE. https://doi.org/10.1109/ICASSP.2017.7952585	spa
dc.relation.references	Dubnov, S. (2021). Cross - modal and intermodal analysis in music information retrieval. Journal of New Music Research, 50 (3), 214 – 229. https://doi.org/10.1080/09298215.2021.1878921	spa
dc.relation.references	G'er'e, L., Rigaux, P., & Audebert, N. (2024). Improved symbolic drum style classification with grammar - based hierarchical representations. arXiv preprint arXiv:2407.17536 . https://api.semanticscholar.org/CorpusID:271432077	spa
dc.relation.references	Gillick, J., Roberts, A., Engel, J., Eck, D., & Bamman, D. (2019). Learning to groove with inverse sequence transformations. In Proceedings of the 36th International Conference on Machine Learning (pp. 2269 – 2279). PMLR. https://proceedings.mlr.press/v97/gillick19a.html	spa
dc.relation.references	Gómez - Marín, D., Aponte, A., & Giraldo, J. (2024). Tapped representations of polyphonic patterns. Unpublished manuscript .	spa
dc.relation.references	Gómez - Marín, D., Jordà, S., & Herrera, P. (2020). Drum rhythm spaces: From polyphonic similarity to generative maps. Journal of New Music Research, 49 (5), 438 – 456. https://doi.org/10.1080/09298215.2020.1806887	spa
dc.relation.references	Jordà, S., Kotowski, K., Lee, K., & Behzad, A. (2023). Generative models for rhythm and performance: Advances and challenges. Journal of New Music Research, 52 (2), 100 – 115. https://doi.org/10.1080/09298215.2023.1234567	spa
dc.relation.references	Mercurio, M. (2020). Representación melódica transformacional . Universidad Católica Argentina. https://repositorio.uca.edu.ar/bitstream/123456789/10882/1/representacion - melodica - transformacional.pdf	spa
dc.relation.references	Molinari, L. (2005). Un recorrido por formas de representación y manifestaciones musicales. https://repositoriodigital.uns.edu.ar/bitstream/handle/123456789/3495/Molinari%2C%20 L.%20Un%20recorrido.pdf%3Bsequence%3D1	spa
dc.relation.references	Pelinski, R. (2005). Corporeidad y experiencia musical. Revista Transcultural de Música (9) . https://www.redalyc.org/pdf/822/82200913.pdf	spa
dc.relation.references	Pons, J., Lidy, T., & Serra, X. (2017). Experimenting with musically motivated convolutional neural networks. In Proceedings of the 14th Sound and Music Computing Conference .	spa
dc.relation.references	Schulzrinne, H. (n.d.). 44.1 kHz sampling rate. Columbia University . Retrieved December 11, 2024, from https://www.cs.columbia.edu/~hgs/audio/44.1.html	spa
dc.relation.references	Serra, X., Müller, M., & Lattner, S. (2013). Audio content analysis. In R. Bader (Ed.), Springer handbook of systematic musicology (pp. 341 – 359). Springer. https://doi.org/10.1007/978 - 3 - 642 - 50318 - 0_15	spa
dc.relation.references	Siedenburg, K., McAdams, S., & Popescu, T. (2016). A dimensional model of auditory perception for sound categorization. Psychological Review, 123 (5), 452 – 491. https://doi.org/10.1037/rev0000037	spa
dc.relation.references	Temperley, D. (2010). Music and probability . The MIT Press. https://doi.org/10.7551/mitpress/9780262516240.001.0001	spa
dc.rights	EL AUTOR, expresa que la obra objeto de la presente autorización es original y la elaboró sin quebrantar ni suplantar los derechos de autor de terceros, y de tal forma, la obra es de su exclusiva autoría y tiene la titularidad sobre éste. PARÁGRAFO: en caso de queja o acción por parte de un tercero referente a los derechos de autor sobre el artículo, folleto o libro en cuestión, EL AUTOR, asumirá la responsabilidad total, y saldrá en defensa de los derechos aquí autorizados; para todos los efectos, la Universidad Icesi actúa como un tercero de buena fe. Esta autorización, permite a la Universidad Icesi, de forma indefinida, para que en los términos establecidos en la Ley 23 de 1982, la Ley 44 de 1993, leyes y jurisprudencia vigente al respecto, haga publicación de este con fines educativos.	spa
dc.rights.accessrights	info:eu-repo/semantics/openAccess
dc.rights.coar	http://purl.org/coar/access_right/c_abf2
dc.rights.license	Attribution-NonCommercial-NoDerivatives 4.0 International	en
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subject.armarc	Reproducción del sonido - Técnicas digitales
dc.subject.armarc	Sound - Recording and reproducing - Digital techniques
dc.subject.proposal	Representación rítmica	spa
dc.subject.proposal	Aprendizaje profundo	spa
dc.subject.proposal	Análisis computacional de ritmo	spa
dc.subject.proposal	FWOD	spa
dc.subject.proposal	Espectrogramas Mel	spa
dc.subject.proposal	Redes neuronales convolucionales	spa
dc.subject.proposal	Rhythmic representation	eng
dc.subject.proposal	Deep learning	eng
dc.subject.proposal	Computational rhythm analysis	eng
dc.subject.proposal	FWOD	eng
dc.subject.proposal	Mel spectrograms	eng
dc.subject.proposal	Convolutional neural networks	eng
dc.subject.proposal	Tesis de Maestría en Ciencia de Datos	spa
dc.title	Muzca – Rhythm Representation Studies	spa
dc.type	master thesis
dc.type.coar	http://purl.org/coar/resource_type/c_bdcc
dc.type.coarversion	http://purl.org/coar/version/c_970fb48d4fbd8a85
dc.type.driver	info:eu-repo/semantics/masterThesis
dc.type.local	Tesis de maestría
dc.type.version	info:eu-repo/semantics/publishedVersion