Clasificación del Nivel de Riesgo en Proyectos con Machine Learning: Un Enfoque Práctico con R
Proyecto Final de Sergio Basta
Diplomatura en Ciencia de Datos con R y Python
En el mundo de la gestión de proyectos, anticipar los riesgos y prever posibles desvíos de costos puede marcar la diferencia entre el éxito y el fracaso. Gracias al avance del Machine Learning, hoy es posible automatizar y optimizar este proceso mediante modelos predictivos.
En este artículo exploramos un proyecto desarrollado por Sergio Basta, alumno del Instituto Data Science Argentina, que implementa un modelo de clasificación del nivel de riesgo en proyectos utilizando R, integrando algoritmos como Random Forest, Support Vector Machine y Regresión Logística.
Objetivo del proyecto
El propósito principal fue predecir el nivel de riesgo de proyectos y estimar el desvío de costos, combinando técnicas de aprendizaje supervisado y análisis económico para cuantificar el impacto de las predicciones en términos monetarios.
El dataset utilizado contenía 789 proyectos y 28 variables, entre las que se incluyen:
- Alcance de la solución
- Compañía ejecutora
- Industria del cliente
- Costo presupuestado total
- Duración estimada
- Esfuerzo presupuestado (en días)
Metodología y desarrollo
El proceso comenzó con una limpieza y preprocesamiento de datos, aplicando:
- Normalización de variables continuas.
- Creación de variables dummy para las categóricas.
- Balanceo de clases para corregir la predominancia de proyectos de bajo riesgo.
A partir de allí, se entrenaron y compararon tres algoritmos de clasificación:
- Random Forest
- Máquinas de Soporte Vectorial (SVM)
- Regresión Logística
También se implementaron modelos de regresión para predecir el desvío de costos, utilizando los mismos algoritmos.
Resultados y comparación de modelos
El modelo con mejor rendimiento fue el Random Forest, con una accuracy del 95.7%, superando al SVM (84%) y a la regresión logística (70%).
Tras realizar un ajuste de hiperparámetros mediante Grid Search y Cross Validation, el modelo alcanzó una precisión del 96.1%, mostrando un leve pero significativo incremento en su performance.
Evaluación económica del modelo
Uno de los aspectos más innovadores del proyecto fue la valoración económica del modelo predictivo.
Se estableció una escala de penalización según la magnitud del error en la clasificación (0%, 20%, 40% y 100%), lo que permitió estimar el ahorro potencial derivado del uso del modelo.
Resultados económicos:
- Costo sin modelo predictivo: 334,000 unidades monetarias
- Costo con modelo Random Forest: 127,000 unidades
- Ahorro estimado: 206,000 unidades (~60%)
Este análisis evidencia el valor económico real de aplicar Machine Learning en la gestión de proyectos.
Implementación en Shiny
El proyecto se complementó con una aplicación interactiva desarrollada en Shiny, que permite:
- Ingresar los parámetros de un nuevo proyecto.
- Obtener predicciones de nivel de riesgo.
- Visualizar el desvío estimado de costos.
- Realizar análisis exploratorios y gráficos interactivos de las variables.
Esta herramienta convierte el modelo en una solución práctica y visual, ideal para la toma de decisiones en entornos empresariales.
Conclusiones
El proyecto demuestra cómo R y el Machine Learning pueden ser aliados poderosos para evaluar riesgos, predecir desvíos y optimizar costos en la gestión de proyectos.
A través de una combinación de análisis estadístico, modelos predictivos y una interfaz intuitiva, esta propuesta no solo mejora la precisión en la estimación del riesgo, sino que también genera un impacto económico tangible.
LinkedIn de Sergio Basta: https://www.linkedin.com/in/sergio-basta-19038411/
