Proectum: Predicción de Éxito Musical con Machine Learning y Spotify

Proyecto Final de Juan Cruz Cordonela — Diplomatura en Ciencia de Datos con R y Python

En esta oportunidad, Juan Cruz Cordonela, estudiante de la Diplomatura en Ciencia de Datos con R y Python, presenta Proectum, un proyecto que utiliza Machine Learning para resolver un problema concreto del negocio musical: ¿puede una discográfica predecir si una canción va a ser un éxito antes de invertir en su lanzamiento? El proyecto integra Random Forest, XGBoost y una métrica económica personalizada que prioriza la rentabilidad real sobre la precisión estadística pura.

¿Qué es Proectum y qué problema resuelve?

Proectum es un sistema de predicción de éxito musical con Machine Learning orientado a pequeñas discográficas y productoras. El planteo de negocio es directo: una discográfica recibe varios temas candidatos y necesita decidir cuáles lanzar al mercado. Hoy esa decisión depende del oído humano, la intuición y la experiencia. Proectum propone apoyar esa decisión con un modelo entrenado sobre datos reales de Spotify.

El éxito comercial se define a partir de un umbral de popularidad en Spotify, transformando un problema de regresión (predecir un valor entre 0 y 100) en uno de clasificación binaria mucho más interpretable para el negocio.

Datos utilizados en el proyecto

El proyecto trabaja con un dataset descargado desde Spotify, con variables que cubren tres dimensiones de cada canción:

Identificación: canción, artista, álbum, año de lanzamiento.
Atributos técnicos: duración, compás, tonalidad.
Atributos perceptuales: energía, valencia, bailabilidad, volumen, tempo.

La variable objetivo es la popularidad, transformada en una variable binaria «éxito» para entrenar modelos de clasificación.

Las variables categóricas como artista y álbum se descartaron por alta cardinalidad, una decisión coherente con la bibliografía de feature engineering: introducirlas hubiera generado ruido y reducido la precisión del modelo. La variable año, en cambio, se mantuvo porque captura tendencias musicales por época.

Predicción de éxito musical con Random Forest y XGBoost

Feature engineering: variables derivadas

Juan Cruz creó variables nuevas a partir de combinaciones entre las originales para enriquecer el modelo:

Energía × Valencia: captura la combinación entre intensidad y emoción positiva.
Variabilidad × Volumen: refleja la dinámica sonora del tema.
Tempo / Duración: relación entre velocidad y largo total.

Estas variables aportaron precisión adicional sin elevar la complejidad del modelo de forma desproporcionada.

Limpieza y exploración de datos

El dataset llegó sin valores nulos, lo que evitó tener que aplicar técnicas de imputación. La exploración mostró un desbalance moderado entre canciones no exitosas y éxitos, una distribución manejable para algoritmos como Random Forest sin necesidad de técnicas agresivas de rebalanceo.

Métrica económica: Profit Scorer Dynamic

Aquí está el verdadero diferencial del proyecto. En vez de optimizar accuracy, F1-score o AUC, Juan Cruz definió una métrica económica personalizada llamada Profit Scorer Dynamic, que asigna ganancia o pérdida real a cada tipo de predicción:

Verdadero Positivo (canción exitosa correctamente identificada): genera ganancia.
Falso Positivo (se predijo éxito pero no lo era): genera pérdida por lanzamiento fallido.
Falso Negativo (era éxito pero se descartó): genera pérdida por oportunidad perdida.
Verdadero Negativo (correctamente descartada): no genera impacto económico.

Esta métrica se usó tanto para entrenar como para optimizar hiperparámetros, garantizando consistencia entre el objetivo del negocio y el criterio del modelo. Es un detalle clave: la mayoría de los proyectos de Machine Learning optimizan métricas estadísticas que no siempre se traducen en valor económico.

Modelos comparados: Random Forest vs XGBoost

Juan Cruz entrenó dos modelos en paralelo y los comparó usando la métrica económica como criterio de decisión:

Random Forest: modelo conservador y estable, robusto al ruido.
XGBoost: modelo más complejo, capaz de capturar interacciones sutiles pero con mayor riesgo de sobreajuste.

Ambos modelos pasaron por un proceso de optimización de hiperparámetros y búsqueda del umbral de decisión óptimo (el punto de corte que convierte una probabilidad en una predicción binaria). La conclusión final integra las dos perspectivas: cuando ambos modelos coinciden en clasificar un tema como éxito, la confianza es mayor.

Variables más influyentes

El análisis de importancia de variables identificó tres factores como los más determinantes del éxito comercial:

Energía: temas más enérgicos tienden a tener mayor impacto.
Valencia: emociones positivas correlacionan con popularidad.
Bailabilidad: la facilidad para bailar el tema es un fuerte predictor.

La interfaz de demostración permite modificar estos atributos en vivo y observar cómo cambia la predicción, mostrando de forma intuitiva la sensibilidad del modelo.

Stack tecnológico del proyecto

Proectum está construido sobre un stack de Python clásico para Machine Learning, con foco en interpretabilidad y rapidez de iteración.

Modelado y optimización

scikit-learn: pipeline de preprocesamiento, Random Forest y métricas personalizadas.
XGBoost: modelo de boosting con búsqueda de hiperparámetros.
StandardScaler: estandarización de variables para que las escalas no distorsionen el peso relativo de cada feature.

Análisis y visualización

Pandas y NumPy: manipulación y exploración del dataset de Spotify.
Matplotlib y Seaborn: análisis exploratorio, matrices de confusión y gráficos comparativos.

Interfaz de demostración

El proyecto incluye una interfaz web donde el usuario puede ingresar los atributos de una canción nueva y obtener la predicción de ambos modelos en tiempo real. Es la pieza pensada para mostrar a clientes en una primera reunión comercial.

Modelo de negocio: a quién está orientado Proectum

Proectum apunta a un nicho específico del mercado musical, validado por el propio Juan Cruz mediante entrevistas con actores del rubro.

Cliente principal: pequeñas discográficas

Las discográficas pequeñas no suelen tener acceso a equipos de A&R (Artists and Repertoire) extensos ni a estudios de mercado costosos. Proectum les ofrece una segunda opinión basada en datos antes de invertir en producir, masterizar y promocionar un tema.

Validación con productores y DJs

Juan Cruz consultó a un productor independiente y a un DJ profesional para validar dos cosas:

Viabilidad técnica: los atributos perceptuales (energía, valencia, etc.) se pueden extraer automáticamente de archivos de audio mediante scripts, lo que abre la puerta a una versión escalable del producto.
Utilidad comercial: el producto resuelve un dolor real del negocio, especialmente en sellos pequeños donde cada lanzamiento fallido tiene un alto costo relativo.

Conclusión

Proectum es un ejemplo claro de cómo la Ciencia de Datos puede integrar técnicas de Machine Learning con métricas de negocio para generar valor económico medible. El proyecto de Juan Cruz Cordonela demuestra que la verdadera ventaja competitiva no está solo en elegir el algoritmo correcto, sino en alinear la métrica de optimización con el objetivo del negocio.

Más allá de la precisión de los modelos, Proectum aporta una visión madura del rol del científico de datos: entender el negocio, traducirlo a métricas y construir una solución que el cliente pueda usar.

LinkedIn de Juan Cruz Cordonela: https://ar.linkedin.com/in/juan-cruz-cordoneda-full-stack-data-engineer-4148b11a9/es

¿Te gustaría aprender Ciencia de Datos?

👉👉 Haz clic aquí para más información