Clasificación de géneros musicales con Machine Learning
Proyecto Final de Mariano Fares
Diplomatura en Ciencia de Datos con R y Python
En el mundo de la música digital, los avances en inteligencia artificial han permitido crear modelos capaces de reconocer patrones sonoros y clasificar canciones automáticamente. En el marco de la Diplomatura en Ciencia de Datos con R y Python del Instituto Data Science Argentina, el alumno Mariano Fares desarrolló un proyecto final enfocado en la clasificación de géneros musicales con Machine Learning, comparando dos enfoques potentes: Redes Neuronales y Random Forest.
El objetivo fue construir un modelo predictivo capaz de identificar correctamente el género de una canción a partir de características extraídas de archivos de audio. Este desafío combinó programación, análisis estadístico, aprendizaje automático y una mirada de negocio sobre el impacto económico de cada modelo.
De los datos al modelo: el proceso de análisis
El proyecto se basó en un conjunto de 1000 archivos de audio, con una duración de 30 segundos cada uno, distribuidos en 10 géneros musicales distintos (rock, jazz, clásico, country, pop, hip hop, disco, blues, heavy metal y reggae).
A partir de estos audios, se extrajeron múltiples características acústicas mediante la librería Librosa, como:
- Forma de onda y su representación temporal,
- Transformadas de Fourier y espectrogramas,
- Coeficientes cepstrales de frecuencia Mel (MFCC),
- Frecuencias croma,
- Cero crossing rate y spectral rolloff.
Estas variables permitieron construir un dataset de 57 columnas con información numérica representativa del comportamiento sonoro de cada canción. Posteriormente, se aplicó análisis de componentes principales (PCA) para reducir la dimensionalidad y eliminar ruido, garantizando un entrenamiento más eficiente.
Entrenamiento del modelo: Random Forest vs. Redes Neuronales
El primer enfoque consistió en entrenar un modelo Random Forest, optimizando sus hiperparámetros mediante GridSearchCV y validación cruzada. Este modelo alcanzó una exactitud (accuracy) del 67%, mostrando un rendimiento sólido pero con margen de mejora.
El siguiente paso fue desarrollar una Red Neuronal Densa (Fully Connected Neural Network) utilizando Keras y TensorFlow. Se diseñó una arquitectura con varias capas ocultas (256, 128 y 64 neuronas) y función de activación ReLU, incorporando Dropout para prevenir el overfitting. Tras el entrenamiento, el modelo de redes neuronales logró una precisión del 78% en entrenamiento y 73% en validación, superando significativamente al Random Forest.
Visualización y comprensión del audio
Además de las métricas, el proyecto incluyó una sólida parte visual y explicativa. A través de Plotly, se generaron gráficos interactivos que mostraban la forma de onda, el espectrograma y las frecuencias relevantes de cada género musical.
Estos recursos fueron esenciales para comunicar al cliente —en este caso, una empresa discográfica— cómo las características del audio se traducen en predicciones del modelo, fomentando la comprensión del proceso técnico detrás del Machine Learning.
Más allá de la precisión: análisis económico del modelo
Una de las innovaciones del proyecto fue la incorporación de un análisis de impacto económico. Mariano desarrolló una función que, a partir de la matriz de confusión, permite estimar ganancias y pérdidas económicas según los aciertos o errores de clasificación.
De este modo, se tradujo el rendimiento técnico del modelo en indicadores de rentabilidad, algo fundamental en entornos empresariales donde las decisiones basadas en datos deben considerar también su impacto financiero.
El resultado mostró que, al ajustar correctamente los hiperparámetros, las redes neuronales no solo alcanzaban mayor precisión, sino también un beneficio económico neto superior, confirmando la hipótesis inicial del proyecto.
Conclusiones
El proyecto “Clasificación de géneros musicales con Machine Learning” demostró cómo las técnicas de inteligencia artificial pueden aplicarse con éxito al análisis de audio, combinando ciencia de datos, visualización y modelado predictivo.
La comparación entre Random Forest y Redes Neuronales permitió entender las fortalezas de cada enfoque y su impacto tanto técnico como económico.
Desde el Instituto Data Science Argentina, este trabajo refleja la formación integral de sus estudiantes, capaces de desarrollar proyectos reales que integran análisis de datos, modelado estadístico y aplicación práctica de la inteligencia artificial.
LinkedIn de Mariano Fares: https://www.linkedin.com/in/marianofares/
