Clasificación de Víctimas Fatales en Siniestros Viales con Machine Learning | Instituto Data Science Argentina

🔥 Cyber Week: 12 cuotas sin interés con todos los medios de pago | 20% de descuento en 1 pago por transferencia. Con tu inscripción te incluimos GRATIS el Curso Experto en Power BI 🔥

Proyecto Final de Santiago Muñoz
Diplomatura en Python orientado a Científico de Datos

Los siniestros viales representan una problemática global que la Organización Mundial de la Salud (OMS) considera una crisis sanitaria. Cada año, millones de personas pierden la vida en accidentes de tránsito, generando un impacto económico y social significativo. En Argentina, la tasa de mortalidad por siniestros viales se estima en 9,8 personas cada 100.000 habitantes, un número que evidencia la magnitud del desafío.

En este contexto, los avances en Ciencia de Datos y Machine Learning ofrecen nuevas herramientas para analizar los factores que influyen en la gravedad de los accidentes y clasificar las víctimas fatales según sus características, permitiendo mejorar las estrategias de prevención y asignación de recursos.

Un enfoque desde la Ciencia de Datos

El proyecto desarrollado por Santiago Muñoz, economista con maestría en econometría y egresado de la Diplomatura en Python orientada a Ciencia de Datos del Instituto Data Science Argentina, tuvo como objetivo aplicar modelos de Machine Learning para la clasificación de víctimas fatales en siniestros viales en la Ciudad de Buenos Aires.

Para ello, se trabajó con datasets abiertos del Gobierno de la Ciudad, correspondientes al período 2019–2023, que incluyen información sobre los accidentes, condiciones meteorológicas, ubicación geográfica, características de las víctimas y factores asociados a la infraestructura urbana.

Procesamiento y modelado de datos

Luego de un exhaustivo análisis exploratorio de datos, se realizó la estandarización de variables numéricas, codificación de variables categóricas y partición de los datos para entrenamiento y validación.
Se aplicaron diferentes modelos de clasificación, entre ellos:

  • Regresión Logística (modelo base)
  • Random Forest
  • Balanced Random Forest
  • XGBoost

Para optimizar el rendimiento de los modelos se implementó Cross Validation y búsqueda de hiperparámetros (Grid Search), evitando así el overfitting y garantizando una buena capacidad de generalización.

Resultados y métricas

Los modelos fueron evaluados con las métricas habituales en problemas de clasificación: precisión (precision), recuperación (recall) y F1-score.
El mejor desempeño se obtuvo con el modelo Balanced Random Forest, alcanzando un F1-score de 0,78, lo que refleja una buena capacidad para distinguir entre víctimas motorizadas (conductores y motociclistas) y no motorizadas (peatones y ciclistas).

Además, se elaboró una matriz de confusión monetizada, en la cual se estimó el costo social asociado a los errores de clasificación. Esta aproximación permitió vincular los resultados del modelo con el impacto económico derivado de los siniestros viales, considerando un costo promedio por víctima fatal de 151 millones de pesos y un presupuesto anual en seguridad vial de alrededor de 58.000 millones de pesos.

Interpretación y variables relevantes

A través del uso de librerías como SHAP y Eli5, se analizaron las variables con mayor peso en la predicción.
Entre las más influyentes se destacaron:

  • Tipo de víctima (motorizada / no motorizada)
  • Distancia a espacios verdes
  • Tipo de contraparte involucrada en el siniestro
  • Sexo de la víctima
  • Estación del año y franja horaria

Estos factores permiten identificar patrones de riesgo y orientar mejor las políticas públicas de seguridad vial.

Aplicaciones y conclusiones

El modelo desarrollado no busca reemplazar los análisis de impacto ni inferencias causales, pero sí constituye una herramienta predictiva complementaria que puede ayudar a los organismos de transporte y seguridad a asignar recursos de forma más eficiente, focalizando las acciones preventivas donde los riesgos son mayores.

Este proyecto demuestra cómo la Ciencia de Datos aplicada al sector público puede generar insumos valiosos para la toma de decisiones basadas en evidencia, contribuyendo a reducir la mortalidad y mejorar la seguridad vial en las ciudades.

Sobre el autor del proyecto

Santiago Muñoz es economista, magíster en econometría y egresado de la Diplomatura en Python orientada a Ciencia de Datos del Instituto Data Science Argentina.
Su trabajo integra conocimientos estadísticos, económicos y computacionales para abordar problemáticas de alto impacto social mediante modelos predictivos basados en datos reales.

LinkedIn de Santiago Muñoz: https://www.linkedin.com/in/santiago-mu%C3%B1oz-far%C3%ADas-6a0609116/

Si te interesa aprender Python y Ciencia de Datos haz clic aquí 👇👇

Artículo añadido al carrito.
0 artículos - $0,00