Logo_Icesi
 

Muzca – Rhythm Representation Studies

dc.audienceTodo Público
dc.contributor.advisorGómez, Daniel
dc.contributor.advisorGiraldo, Jose
dc.contributor.authorMartínez, Daniel
dc.contributor.authorAponte Segura, Alfredo
dc.coverage.spatialCali de Lat: 03 24 00 N degrees minutes Lat: 3.4000 decimal degrees Long: 076 30 00 W degrees minutes Long: -76.5000 decimal degrees.
dc.date.accessioned2026-03-04T20:26:39Z
dc.date.available2026-03-04T20:26:39Z
dc.date.issued2025-06-27
dc.description.abstractEste trabajo presenta un enfoque basado en aprendizaje profundo para predecir representaciones rítmicas explicables directamente a partir de archivos de audio (.WAV). La representación utilizada, denominada Densidad de Inicio Ponderada por Frecuencia (FWOD), permite sintetizar la densidad rítmica de un compás en un vector unidimensional de 16 valores. En una fase inicial, se validó la utilidad de FWOD como descriptor rítmico mediante la aplicación de modelos de clasificación sobre datos simbólicos (archivos MIDI), logrando una precisión del 90,5% y superando trabajos previos de vanguardia. Este resultado sirvió como base para la segunda fase del proyecto, centrada en la predicción del vector FWOD a partir de audio real mediante modelos convolucionales (CNN) entrenados en espectrogramas de Mel. El conjunto de datos final se construyó a partir de la correspondencia entre los archivos .MIDI y .WAV del conjunto de datos MIDI Groove de Magenta, ajustado y alineado para facilitar la comparación entre ambas representaciones. Se exploraron la arquitectura, la regularización y las variantes de conjunto, alcanzando un MAE mínimo de 0,1836 con un R² estimado de 0,70. Los resultados confirman la viabilidad de FWOD como puente entre la señal acústica y el análisis rítmico computacional, abriendo nuevas posibilidades para el desarrollo de marcos explicables de clasificación musical centrados en la percusión (Choi et al., 2017; Gómez-Marín et al., 2024).spa
dc.description.abstractThis work presents a deep learning-based approach for predicting explainable rhythmic representations directly from audio files (.WAV). The representation used, called Frequency-Weighted Onset Density (FWOD), allows synthesizing the rhythmic density of a measure into a one-dimensional vector of 16 values. In an initial phase, the usefulness of FWOD as a rhythmic descriptor was validated by applying classification models on symbolic data (MIDI files), achieving 90.5% accuracy and surpassing previous state-of-the-art works. This result served as a baseline for the second phase of the project, focused on predicting the FWOD vector from real audio using convolutional models (CNN) trained on Mel spectrograms. The final dataset was constructed from the correspondence between .MIDI and .WAV files from Magenta's Groove MIDI Dataset, adjusted and aligned to facilitate comparison between both representations. Architecture, regularization, and ensemble variants were explored, reaching a minimum MAE of 0.1836 with an estimated R² of 0.70. The results confirm the viability of FWOD as a bridge between acoustic signal and computational rhythm analysis, opening new possibilities for the development of explainable musical classification frameworks focused on percussion (Choi et al., 2017; Gómez - Marín et al., 2024).eng
dc.description.degreelevelMagíster
dc.description.degreenameTrabajo de grado para optar al título de Magister en Ciencia de Datos
dc.description.tableofcontentsIntroducción . . . 6 -- Contexto y antecedentes . . . 7 -- Árbol del problema . . . 8 -- Problema Central . . . 9 -- Dificultad en el análisis de patrones musicales . . . 9 -- Clasificación ineficiente de patrones musicales . . . 9 -- Limitaciones en la generación de música . . . 9 -- Naturaleza multidimensional de los sonidos musicales . . . 9 -- Limitaciones de las representaciones actuales . . . 10 -- Falta de validación de nuevas representaciones . . . 10 -- Relación con el proyecto Muzca . . . 10 -- Objetivos . . . 11 -- Objetivo General . . . 11 -- Objetivos Específicos . . . 11 -- Metodología . . . 11 -- Fases del proceso . . . 13 -- Comprensión del Problema . . . 13 -- Análisis de los Datos . . . 13 -- Preparación de los Datos . . . 14 -- Construcción del dataset experimental . . . 15 -- Modelado . . . 15 -- Evaluación . . . 16 -- Roles y Dinámica del Equipo . . . 16 -- Fundamentos de Representación y Percepción Rítmica . . . 16 -- Representación Musical . . . 17 -- Simplificación rítmica y percepción . . . 17 -- Frequency - Weighted Onset Density (FWOD) . . . 17 -- Clasificación y Generación de Ritmos . . . 18 -- Clasificación de ritmos desde MIDI usando FWOD . . . 18 -- Rhythm Space . . . 19 -- Estado del arte . . . 19 -- Propuesta . . . 20 -- Viabilidad y selección del dataset experimental . . . 21 -- Predicción de ritmo desde audio real . . . 21 -- Tratamiento y preparación del dataset . . . 21 -- Generación del mel_fwod_dataset.npz . . . 22 -- División del dataset . . . 23 -- Modelado de FWOD desde espectrogramas Mel . . . 24 -- Métricas de evaluación . . . 24 -- Estrategias evaluadas . . . 24 -- Validación y aprendizaje . . . 27 -- Limitaciones . . . 28 -- Dependencia de la Calidad y Variedad del Dataset . . . 29 -- Desbalance en la Distribución de Clases . . . 29 -- Limitaciones técnicas de los modelos . . . 29 -- Conclusiones y trabajo futuro . . . 30 -- Conclusiones generales . . . 30 -- Perspectivas del framework FWOD . . . 30 -- Líneas de trabajo futuro . . . 31 -- Referencias . . . 32 -- Anexos . . . 34 -- Anexo A. Resultados detallados del alcance inicial: MIDI → FWOD → Clasificación . 34 -- Modelos evaluados . . . 34 -- Configuraciones del dataset . . . 34 -- Cuadro resumen de resultados (Accuracy) . . . 34 -- Principales hallazgos . . . 35 -- Figuras y métricas adicionales . . . 35 -- Anexo B. Rhythm Space: Resultados detallados . . . 37 -- Tratamiento del dataset . . . 37 -- Modelos implementados . . . 37 -- Principales resultados . . . 38 -- Anexo C. Resultados comparativos de los modelos CNN aplicados a audio real . 39spa
dc.format.extent41 páginas
dc.format.mediumDigital
dc.format.mimetypeapplication/pdf
dc.identifier.OLIBhttps://biblioteca2.icesi.edu.co/cgi-olib/?oid=366450
dc.identifier.instnameinstname:Universidad Icesi
dc.identifier.reponamereponame:Biblioteca Digital
dc.identifier.repourlrepourl:https://repository.icesi.edu.co/
dc.identifier.urihttps://hdl.handle.net/10906/130576
dc.language.isospa
dc.publisherUniversidad Icesi
dc.publisher.facultyBarberi de Ingeniería, Diseño y Ciencias Aplicadas
dc.publisher.placeSantiago de Cali
dc.publisher.programMaestría en Ciencia de Datos
dc.relation.referencesBehzad, A., Jordà, S., Lee, K., & Kotowski, K. (2023). On the representation of drum patterns for rhythm style classification. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 31, 2307 – 2320. https://doi.org/10.1109/TASLP.2023.3283253spa
dc.relation.referencesCasey, M. A., Veltkamp, R. C., Goto, M., Leman, M., Rhodes, C., & Slaney, M. (2008). Content-based music information retrieval: Current challenges and future directions. Proceedings of the IEEE, 96 (4), 661 – 696. https://doi.org/10.1109/JPROC.2008.916370spa
dc.relation.referencesChoi, K., Fazekas, G., & Sandler, M. (2017). A comparison of neural network models for audio event detection. In 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (pp. 2352 – 2356). IEEE. https://doi.org/10.1109/ICASSP.2017.7952585spa
dc.relation.referencesDubnov, S. (2021). Cross - modal and intermodal analysis in music information retrieval. Journal of New Music Research, 50 (3), 214 – 229. https://doi.org/10.1080/09298215.2021.1878921spa
dc.relation.referencesG'er'e, L., Rigaux, P., & Audebert, N. (2024). Improved symbolic drum style classification with grammar - based hierarchical representations. arXiv preprint arXiv:2407.17536 . https://api.semanticscholar.org/CorpusID:271432077spa
dc.relation.referencesGillick, J., Roberts, A., Engel, J., Eck, D., & Bamman, D. (2019). Learning to groove with inverse sequence transformations. In Proceedings of the 36th International Conference on Machine Learning (pp. 2269 – 2279). PMLR. https://proceedings.mlr.press/v97/gillick19a.htmlspa
dc.relation.referencesGómez - Marín, D., Aponte, A., & Giraldo, J. (2024). Tapped representations of polyphonic patterns. Unpublished manuscript .spa
dc.relation.referencesGómez - Marín, D., Jordà, S., & Herrera, P. (2020). Drum rhythm spaces: From polyphonic similarity to generative maps. Journal of New Music Research, 49 (5), 438 – 456. https://doi.org/10.1080/09298215.2020.1806887spa
dc.relation.referencesJordà, S., Kotowski, K., Lee, K., & Behzad, A. (2023). Generative models for rhythm and performance: Advances and challenges. Journal of New Music Research, 52 (2), 100 – 115. https://doi.org/10.1080/09298215.2023.1234567spa
dc.relation.referencesMercurio, M. (2020). Representación melódica transformacional . Universidad Católica Argentina. https://repositorio.uca.edu.ar/bitstream/123456789/10882/1/representacion - melodica - transformacional.pdfspa
dc.relation.referencesMolinari, L. (2005). Un recorrido por formas de representación y manifestaciones musicales. https://repositoriodigital.uns.edu.ar/bitstream/handle/123456789/3495/Molinari%2C%20 L.%20Un%20recorrido.pdf%3Bsequence%3D1spa
dc.relation.referencesPelinski, R. (2005). Corporeidad y experiencia musical. Revista Transcultural de Música (9) . https://www.redalyc.org/pdf/822/82200913.pdfspa
dc.relation.referencesPons, J., Lidy, T., & Serra, X. (2017). Experimenting with musically motivated convolutional neural networks. In Proceedings of the 14th Sound and Music Computing Conference .spa
dc.relation.referencesSchulzrinne, H. (n.d.). 44.1 kHz sampling rate. Columbia University . Retrieved December 11, 2024, from https://www.cs.columbia.edu/~hgs/audio/44.1.htmlspa
dc.relation.referencesSerra, X., Müller, M., & Lattner, S. (2013). Audio content analysis. In R. Bader (Ed.), Springer handbook of systematic musicology (pp. 341 – 359). Springer. https://doi.org/10.1007/978 - 3 - 642 - 50318 - 0_15spa
dc.relation.referencesSiedenburg, K., McAdams, S., & Popescu, T. (2016). A dimensional model of auditory perception for sound categorization. Psychological Review, 123 (5), 452 – 491. https://doi.org/10.1037/rev0000037spa
dc.relation.referencesTemperley, D. (2010). Music and probability . The MIT Press. https://doi.org/10.7551/mitpress/9780262516240.001.0001spa
dc.rightsEL AUTOR, expresa que la obra objeto de la presente autorización es original y la elaboró sin quebrantar ni suplantar los derechos de autor de terceros, y de tal forma, la obra es de su exclusiva autoría y tiene la titularidad sobre éste. PARÁGRAFO: en caso de queja o acción por parte de un tercero referente a los derechos de autor sobre el artículo, folleto o libro en cuestión, EL AUTOR, asumirá la responsabilidad total, y saldrá en defensa de los derechos aquí autorizados; para todos los efectos, la Universidad Icesi actúa como un tercero de buena fe. Esta autorización, permite a la Universidad Icesi, de forma indefinida, para que en los términos establecidos en la Ley 23 de 1982, la Ley 44 de 1993, leyes y jurisprudencia vigente al respecto, haga publicación de este con fines educativos.spa
dc.rights.accessrightsinfo:eu-repo/semantics/openAccess
dc.rights.coarhttp://purl.org/coar/access_right/c_abf2
dc.rights.licenseAttribution-NonCommercial-NoDerivatives 4.0 Internationalen
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subject.armarcReproducción del sonido - Técnicas digitales
dc.subject.armarcSound - Recording and reproducing - Digital techniques
dc.subject.proposalRepresentación rítmicaspa
dc.subject.proposalAprendizaje profundospa
dc.subject.proposalAnálisis computacional de ritmospa
dc.subject.proposalFWODspa
dc.subject.proposalEspectrogramas Melspa
dc.subject.proposalRedes neuronales convolucionalesspa
dc.subject.proposalRhythmic representationeng
dc.subject.proposalDeep learningeng
dc.subject.proposalComputational rhythm analysiseng
dc.subject.proposalFWODeng
dc.subject.proposalMel spectrogramseng
dc.subject.proposalConvolutional neural networkseng
dc.subject.proposalTesis de Maestría en Ciencia de Datosspa
dc.titleMuzca – Rhythm Representation Studiesspa
dc.typemaster thesis
dc.type.coarhttp://purl.org/coar/resource_type/c_bdcc
dc.type.coarversionhttp://purl.org/coar/version/c_970fb48d4fbd8a85
dc.type.driverinfo:eu-repo/semantics/masterThesis
dc.type.localTesis de maestría
dc.type.versioninfo:eu-repo/semantics/publishedVersion

Archivos

Bloque original

Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
T03091.pdf
Tamaño:
942.88 KB
Formato:
Adobe Portable Document Format

Bloque de licencias

Mostrando 1 - 1 de 1
No hay miniatura disponible
Nombre:
license.txt
Tamaño:
1.71 KB
Formato:
Item-specific license agreed upon to submission
Descripción: