Muzca – Rhythm Representation Studies

Martínez, Daniel; Aponte Segura, Alfredo

Muzca – Rhythm Representation Studies

Archivos

T03091.pdf (942.88 KB)

Fecha

2025-06-27

Autores

Martínez, Daniel

Aponte Segura, Alfredo

Director de tesis/Asesor

Gómez, Daniel
Giraldo, Jose

Publicador

Universidad Icesi

Compartir

Documentos PDF

Resumen

Este trabajo presenta un enfoque basado en aprendizaje profundo para predecir representaciones rítmicas explicables directamente a partir de archivos de audio (.WAV). La representación utilizada, denominada Densidad de Inicio Ponderada por Frecuencia (FWOD), permite sintetizar la densidad rítmica de un compás en un vector unidimensional de 16 valores. En una fase inicial, se validó la utilidad de FWOD como descriptor rítmico mediante la aplicación de modelos de clasificación sobre datos simbólicos (archivos MIDI), logrando una precisión del 90,5% y superando trabajos previos de vanguardia. Este resultado sirvió como base para la segunda fase del proyecto, centrada en la predicción del vector FWOD a partir de audio real mediante modelos convolucionales (CNN) entrenados en espectrogramas de Mel. El conjunto de datos final se construyó a partir de la correspondencia entre los archivos .MIDI y .WAV del conjunto de datos MIDI Groove de Magenta, ajustado y alineado para facilitar la comparación entre ambas representaciones. Se exploraron la arquitectura, la regularización y las variantes de conjunto, alcanzando un MAE mínimo de 0,1836 con un R² estimado de 0,70. Los resultados confirman la viabilidad de FWOD como puente entre la señal acústica y el análisis rítmico computacional, abriendo nuevas posibilidades para el desarrollo de marcos explicables de clasificación musical centrados en la percusión (Choi et al., 2017; Gómez-Marín et al., 2024).

Abstract

This work presents a deep learning-based approach for predicting explainable rhythmic representations directly from audio files (.WAV). The representation used, called Frequency-Weighted Onset Density (FWOD), allows synthesizing the rhythmic density of a measure into a one-dimensional vector of 16 values. In an initial phase, the usefulness of FWOD as a rhythmic descriptor was validated by applying classification models on symbolic data (MIDI files), achieving 90.5% accuracy and surpassing previous state-of-the-art works. This result served as a baseline for the second phase of the project, focused on predicting the FWOD vector from real audio using convolutional models (CNN) trained on Mel spectrograms. The final dataset was constructed from the correspondence between .MIDI and .WAV files from Magenta's Groove MIDI Dataset, adjusted and aligned to facilitate comparison between both representations. Architecture, regularization, and ensemble variants were explored, reaching a minimum MAE of 0.1836 with an estimated R² of 0.70. The results confirm the viability of FWOD as a bridge between acoustic signal and computational rhythm analysis, opening new possibilities for the development of explainable musical classification frameworks focused on percussion (Choi et al., 2017; Gómez - Marín et al., 2024).

Palabras clave

Representación rítmica, Aprendizaje profundo, Análisis computacional de ritmo, FWOD, Espectrogramas Mel, Redes neuronales convolucionales, Tesis de Maestría en Ciencia de Datos

Keywords

Rhythmic representation, Deep learning, Computational rhythm analysis, FWOD, Mel spectrograms, Convolutional neural networks,

OLIB

https://biblioteca2.icesi.edu.co/cgi-olib/?oid=366450

URI

https://hdl.handle.net/10906/130576

Colecciones

Maestría en Ciencia de Datos

Página completa del ítem

Excepto si se señala otra cosa, la licencia del ítem se describe como Attribution-NonCommercial-NoDerivatives 4.0 International.

Muzca – Rhythm Representation Studies

Archivos

Fecha

Autores

Director de tesis/Asesor

Título de la revista

ISSN de la revista

Título del volumen

Publicador

Editor

Compartir

Resumen

Abstract

Resumo

Descripción

Palabras clave

Keywords

Palavras-chave

Citación

DOI

Handle

ISBN

ISSN

OLIB

URL

YouTube

URI

Colecciones