Muzca – Rhythm Representation Studies
| dc.audience | Todo Público | |
| dc.contributor.advisor | Gómez, Daniel | |
| dc.contributor.advisor | Giraldo, Jose | |
| dc.contributor.author | Martínez, Daniel | |
| dc.contributor.author | Aponte Segura, Alfredo | |
| dc.coverage.spatial | Cali de Lat: 03 24 00 N degrees minutes Lat: 3.4000 decimal degrees Long: 076 30 00 W degrees minutes Long: -76.5000 decimal degrees. | |
| dc.date.accessioned | 2026-03-04T20:26:39Z | |
| dc.date.available | 2026-03-04T20:26:39Z | |
| dc.date.issued | 2025-06-27 | |
| dc.description.abstract | Este trabajo presenta un enfoque basado en aprendizaje profundo para predecir representaciones rítmicas explicables directamente a partir de archivos de audio (.WAV). La representación utilizada, denominada Densidad de Inicio Ponderada por Frecuencia (FWOD), permite sintetizar la densidad rítmica de un compás en un vector unidimensional de 16 valores. En una fase inicial, se validó la utilidad de FWOD como descriptor rítmico mediante la aplicación de modelos de clasificación sobre datos simbólicos (archivos MIDI), logrando una precisión del 90,5% y superando trabajos previos de vanguardia. Este resultado sirvió como base para la segunda fase del proyecto, centrada en la predicción del vector FWOD a partir de audio real mediante modelos convolucionales (CNN) entrenados en espectrogramas de Mel. El conjunto de datos final se construyó a partir de la correspondencia entre los archivos .MIDI y .WAV del conjunto de datos MIDI Groove de Magenta, ajustado y alineado para facilitar la comparación entre ambas representaciones. Se exploraron la arquitectura, la regularización y las variantes de conjunto, alcanzando un MAE mínimo de 0,1836 con un R² estimado de 0,70. Los resultados confirman la viabilidad de FWOD como puente entre la señal acústica y el análisis rítmico computacional, abriendo nuevas posibilidades para el desarrollo de marcos explicables de clasificación musical centrados en la percusión (Choi et al., 2017; Gómez-Marín et al., 2024). | spa |
| dc.description.abstract | This work presents a deep learning-based approach for predicting explainable rhythmic representations directly from audio files (.WAV). The representation used, called Frequency-Weighted Onset Density (FWOD), allows synthesizing the rhythmic density of a measure into a one-dimensional vector of 16 values. In an initial phase, the usefulness of FWOD as a rhythmic descriptor was validated by applying classification models on symbolic data (MIDI files), achieving 90.5% accuracy and surpassing previous state-of-the-art works. This result served as a baseline for the second phase of the project, focused on predicting the FWOD vector from real audio using convolutional models (CNN) trained on Mel spectrograms. The final dataset was constructed from the correspondence between .MIDI and .WAV files from Magenta's Groove MIDI Dataset, adjusted and aligned to facilitate comparison between both representations. Architecture, regularization, and ensemble variants were explored, reaching a minimum MAE of 0.1836 with an estimated R² of 0.70. The results confirm the viability of FWOD as a bridge between acoustic signal and computational rhythm analysis, opening new possibilities for the development of explainable musical classification frameworks focused on percussion (Choi et al., 2017; Gómez - Marín et al., 2024). | eng |
| dc.description.degreelevel | Magíster | |
| dc.description.degreename | Trabajo de grado para optar al título de Magister en Ciencia de Datos | |
| dc.description.tableofcontents | Introducción . . . 6 -- Contexto y antecedentes . . . 7 -- Árbol del problema . . . 8 -- Problema Central . . . 9 -- Dificultad en el análisis de patrones musicales . . . 9 -- Clasificación ineficiente de patrones musicales . . . 9 -- Limitaciones en la generación de música . . . 9 -- Naturaleza multidimensional de los sonidos musicales . . . 9 -- Limitaciones de las representaciones actuales . . . 10 -- Falta de validación de nuevas representaciones . . . 10 -- Relación con el proyecto Muzca . . . 10 -- Objetivos . . . 11 -- Objetivo General . . . 11 -- Objetivos Específicos . . . 11 -- Metodología . . . 11 -- Fases del proceso . . . 13 -- Comprensión del Problema . . . 13 -- Análisis de los Datos . . . 13 -- Preparación de los Datos . . . 14 -- Construcción del dataset experimental . . . 15 -- Modelado . . . 15 -- Evaluación . . . 16 -- Roles y Dinámica del Equipo . . . 16 -- Fundamentos de Representación y Percepción Rítmica . . . 16 -- Representación Musical . . . 17 -- Simplificación rítmica y percepción . . . 17 -- Frequency - Weighted Onset Density (FWOD) . . . 17 -- Clasificación y Generación de Ritmos . . . 18 -- Clasificación de ritmos desde MIDI usando FWOD . . . 18 -- Rhythm Space . . . 19 -- Estado del arte . . . 19 -- Propuesta . . . 20 -- Viabilidad y selección del dataset experimental . . . 21 -- Predicción de ritmo desde audio real . . . 21 -- Tratamiento y preparación del dataset . . . 21 -- Generación del mel_fwod_dataset.npz . . . 22 -- División del dataset . . . 23 -- Modelado de FWOD desde espectrogramas Mel . . . 24 -- Métricas de evaluación . . . 24 -- Estrategias evaluadas . . . 24 -- Validación y aprendizaje . . . 27 -- Limitaciones . . . 28 -- Dependencia de la Calidad y Variedad del Dataset . . . 29 -- Desbalance en la Distribución de Clases . . . 29 -- Limitaciones técnicas de los modelos . . . 29 -- Conclusiones y trabajo futuro . . . 30 -- Conclusiones generales . . . 30 -- Perspectivas del framework FWOD . . . 30 -- Líneas de trabajo futuro . . . 31 -- Referencias . . . 32 -- Anexos . . . 34 -- Anexo A. Resultados detallados del alcance inicial: MIDI → FWOD → Clasificación . 34 -- Modelos evaluados . . . 34 -- Configuraciones del dataset . . . 34 -- Cuadro resumen de resultados (Accuracy) . . . 34 -- Principales hallazgos . . . 35 -- Figuras y métricas adicionales . . . 35 -- Anexo B. Rhythm Space: Resultados detallados . . . 37 -- Tratamiento del dataset . . . 37 -- Modelos implementados . . . 37 -- Principales resultados . . . 38 -- Anexo C. Resultados comparativos de los modelos CNN aplicados a audio real . 39 | spa |
| dc.format.extent | 41 páginas | |
| dc.format.medium | Digital | |
| dc.format.mimetype | application/pdf | |
| dc.identifier.OLIB | https://biblioteca2.icesi.edu.co/cgi-olib/?oid=366450 | |
| dc.identifier.instname | instname:Universidad Icesi | |
| dc.identifier.reponame | reponame:Biblioteca Digital | |
| dc.identifier.repourl | repourl:https://repository.icesi.edu.co/ | |
| dc.identifier.uri | https://hdl.handle.net/10906/130576 | |
| dc.language.iso | spa | |
| dc.publisher | Universidad Icesi | |
| dc.publisher.faculty | Barberi de Ingeniería, Diseño y Ciencias Aplicadas | |
| dc.publisher.place | Santiago de Cali | |
| dc.publisher.program | Maestría en Ciencia de Datos | |
| dc.relation.references | Behzad, A., Jordà, S., Lee, K., & Kotowski, K. (2023). On the representation of drum patterns for rhythm style classification. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 31, 2307 – 2320. https://doi.org/10.1109/TASLP.2023.3283253 | spa |
| dc.relation.references | Casey, M. A., Veltkamp, R. C., Goto, M., Leman, M., Rhodes, C., & Slaney, M. (2008). Content-based music information retrieval: Current challenges and future directions. Proceedings of the IEEE, 96 (4), 661 – 696. https://doi.org/10.1109/JPROC.2008.916370 | spa |
| dc.relation.references | Choi, K., Fazekas, G., & Sandler, M. (2017). A comparison of neural network models for audio event detection. In 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (pp. 2352 – 2356). IEEE. https://doi.org/10.1109/ICASSP.2017.7952585 | spa |
| dc.relation.references | Dubnov, S. (2021). Cross - modal and intermodal analysis in music information retrieval. Journal of New Music Research, 50 (3), 214 – 229. https://doi.org/10.1080/09298215.2021.1878921 | spa |
| dc.relation.references | G'er'e, L., Rigaux, P., & Audebert, N. (2024). Improved symbolic drum style classification with grammar - based hierarchical representations. arXiv preprint arXiv:2407.17536 . https://api.semanticscholar.org/CorpusID:271432077 | spa |
| dc.relation.references | Gillick, J., Roberts, A., Engel, J., Eck, D., & Bamman, D. (2019). Learning to groove with inverse sequence transformations. In Proceedings of the 36th International Conference on Machine Learning (pp. 2269 – 2279). PMLR. https://proceedings.mlr.press/v97/gillick19a.html | spa |
| dc.relation.references | Gómez - Marín, D., Aponte, A., & Giraldo, J. (2024). Tapped representations of polyphonic patterns. Unpublished manuscript . | spa |
| dc.relation.references | Gómez - Marín, D., Jordà, S., & Herrera, P. (2020). Drum rhythm spaces: From polyphonic similarity to generative maps. Journal of New Music Research, 49 (5), 438 – 456. https://doi.org/10.1080/09298215.2020.1806887 | spa |
| dc.relation.references | Jordà, S., Kotowski, K., Lee, K., & Behzad, A. (2023). Generative models for rhythm and performance: Advances and challenges. Journal of New Music Research, 52 (2), 100 – 115. https://doi.org/10.1080/09298215.2023.1234567 | spa |
| dc.relation.references | Mercurio, M. (2020). Representación melódica transformacional . Universidad Católica Argentina. https://repositorio.uca.edu.ar/bitstream/123456789/10882/1/representacion - melodica - transformacional.pdf | spa |
| dc.relation.references | Molinari, L. (2005). Un recorrido por formas de representación y manifestaciones musicales. https://repositoriodigital.uns.edu.ar/bitstream/handle/123456789/3495/Molinari%2C%20 L.%20Un%20recorrido.pdf%3Bsequence%3D1 | spa |
| dc.relation.references | Pelinski, R. (2005). Corporeidad y experiencia musical. Revista Transcultural de Música (9) . https://www.redalyc.org/pdf/822/82200913.pdf | spa |
| dc.relation.references | Pons, J., Lidy, T., & Serra, X. (2017). Experimenting with musically motivated convolutional neural networks. In Proceedings of the 14th Sound and Music Computing Conference . | spa |
| dc.relation.references | Schulzrinne, H. (n.d.). 44.1 kHz sampling rate. Columbia University . Retrieved December 11, 2024, from https://www.cs.columbia.edu/~hgs/audio/44.1.html | spa |
| dc.relation.references | Serra, X., Müller, M., & Lattner, S. (2013). Audio content analysis. In R. Bader (Ed.), Springer handbook of systematic musicology (pp. 341 – 359). Springer. https://doi.org/10.1007/978 - 3 - 642 - 50318 - 0_15 | spa |
| dc.relation.references | Siedenburg, K., McAdams, S., & Popescu, T. (2016). A dimensional model of auditory perception for sound categorization. Psychological Review, 123 (5), 452 – 491. https://doi.org/10.1037/rev0000037 | spa |
| dc.relation.references | Temperley, D. (2010). Music and probability . The MIT Press. https://doi.org/10.7551/mitpress/9780262516240.001.0001 | spa |
| dc.rights | EL AUTOR, expresa que la obra objeto de la presente autorización es original y la elaboró sin quebrantar ni suplantar los derechos de autor de terceros, y de tal forma, la obra es de su exclusiva autoría y tiene la titularidad sobre éste. PARÁGRAFO: en caso de queja o acción por parte de un tercero referente a los derechos de autor sobre el artículo, folleto o libro en cuestión, EL AUTOR, asumirá la responsabilidad total, y saldrá en defensa de los derechos aquí autorizados; para todos los efectos, la Universidad Icesi actúa como un tercero de buena fe. Esta autorización, permite a la Universidad Icesi, de forma indefinida, para que en los términos establecidos en la Ley 23 de 1982, la Ley 44 de 1993, leyes y jurisprudencia vigente al respecto, haga publicación de este con fines educativos. | spa |
| dc.rights.accessrights | info:eu-repo/semantics/openAccess | |
| dc.rights.coar | http://purl.org/coar/access_right/c_abf2 | |
| dc.rights.license | Attribution-NonCommercial-NoDerivatives 4.0 International | en |
| dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/4.0/ | |
| dc.subject.armarc | Reproducción del sonido - Técnicas digitales | |
| dc.subject.armarc | Sound - Recording and reproducing - Digital techniques | |
| dc.subject.proposal | Representación rítmica | spa |
| dc.subject.proposal | Aprendizaje profundo | spa |
| dc.subject.proposal | Análisis computacional de ritmo | spa |
| dc.subject.proposal | FWOD | spa |
| dc.subject.proposal | Espectrogramas Mel | spa |
| dc.subject.proposal | Redes neuronales convolucionales | spa |
| dc.subject.proposal | Rhythmic representation | eng |
| dc.subject.proposal | Deep learning | eng |
| dc.subject.proposal | Computational rhythm analysis | eng |
| dc.subject.proposal | FWOD | eng |
| dc.subject.proposal | Mel spectrograms | eng |
| dc.subject.proposal | Convolutional neural networks | eng |
| dc.subject.proposal | Tesis de Maestría en Ciencia de Datos | spa |
| dc.title | Muzca – Rhythm Representation Studies | spa |
| dc.type | master thesis | |
| dc.type.coar | http://purl.org/coar/resource_type/c_bdcc | |
| dc.type.coarversion | http://purl.org/coar/version/c_970fb48d4fbd8a85 | |
| dc.type.driver | info:eu-repo/semantics/masterThesis | |
| dc.type.local | Tesis de maestría | |
| dc.type.version | info:eu-repo/semantics/publishedVersion |
