Predicción del Cáncer de Cuello de Útero: Ciencia de Datos al Servicio de la Salud Pública
Proyecto Final de Fernando Milia
Diplomatura en Ciencia de Datos con R y Python
En el Instituto Data Science Argentina seguimos demostrando cómo la ciencia de datos puede tener un impacto directo en la salud pública. En esta oportunidad, presentamos el proyecto final de Fernando Milia, licenciado en Biotecnología y egresado de la diplomatura en Ciencia de Datos con Python, quien desarrolló un modelo predictivo para la detección temprana del cáncer de cuello de útero.
El trabajo combina análisis epidemiológico, aprendizaje automático y evaluación económica, con el objetivo de construir una herramienta que asista en la toma de decisiones médicas y mejore la detección temprana de pacientes en riesgo.
Contexto del Cáncer de Cuello de Útero en Argentina
El cáncer de cuello de útero es una de las principales causas de mortalidad en mujeres entre 35 y 60 años.
A nivel global, se registran más de 500.000 nuevos casos por año, y en Argentina se estiman alrededor de 4.500 diagnósticos anuales, con una mortalidad aproximada de 2.000 mujeres.
Este tipo de cáncer presenta altas desigualdades socioeconómicas y geográficas, pero también una oportunidad: es prevenible si se detecta a tiempo, gracias a pruebas como el Papanicolaou (Pap) o la detección del Virus del Papiloma Humano (HPV).
El Proyecto: Un Modelo Predictivo para la Detección Temprana
Fernando desarrolló un modelo de machine learning capaz de predecir el riesgo de cáncer de cuello de útero en base a variables epidemiológicas y resultados clínicos.
El trabajo se basó en dos fuentes de datos:
- Datos del Ministerio de Salud de la Nación, para analizar la evolución de la enfermedad en distintas provincias entre 1996 y 2021.
- Dataset clínico específico, con información de pacientes (resultado de prueba Pap, HPV, uso de anticonceptivos, hábitos de tabaquismo, edad de inicio sexual, cantidad de parejas, entre otros factores).
Análisis Exploratorio y Hallazgos Clave
Durante la fase exploratoria, el análisis reveló correlaciones importantes:
- Las pacientes que no usaban preservativo mostraron mayor proporción de resultados positivos de Pap.
- Una mayor cantidad de parejas sexuales se asoció con mayor riesgo.
- La edad temprana en la primera relación sexual también elevó la probabilidad de resultados positivos.
- El tabaquismo fue otro factor con peso en la predicción.
A nivel geográfico, los mapas de calor mostraron un patrón persistente:
el norte argentino, especialmente el noreste, presenta las tasas de mortalidad más altas por cáncer de cuello de útero, mientras que el centro y sur del país muestran valores más bajos.
Entrenamiento del Modelo y Resultados
Se probaron distintos algoritmos de aprendizaje supervisado:
- Random Forest
- XGBoost
- Regresión Logística
El criterio principal de evaluación fue el recall (sensibilidad), priorizando minimizar los falsos negativos, ya que estos implican pacientes enfermas clasificadas erróneamente como sanas.
El modelo de Random Forest con balanceo de pesos en las muestras obtuvo los mejores resultados:
- Exactitud: 85%
- Precisión: 84%
- Falsos negativos: 18%
- Falsos positivos: 12%
Aplicación Práctica: Herramienta de Apoyo Clínico
Con los resultados obtenidos, Fernando desarrolló una interfaz interactiva con PyWebIO que permite a los médicos ingresar datos de las pacientes y obtener una predicción automática de riesgo.
Esta herramienta busca optimizar recursos en salud pública y mejorar el acceso al diagnóstico temprano en zonas donde los exámenes tradicionales no están fácilmente disponibles.
Evaluación Económica del Modelo
El proyecto también incluyó una comparación económica entre el uso del modelo predictivo y los métodos de screening convencionales.
Si bien el algoritmo mostraba una reducción del 6% en los costos de diagnóstico, los falsos negativos representan un riesgo financiero y sanitario elevado, ya que los tratamientos oncológicos posteriores tienen un costo hasta 10 veces superior al diagnóstico temprano.
Por ello, el estudio concluye que, aunque el modelo puede optimizar el proceso de detección, aún requiere ajustes adicionales para su implementación a gran escala.
Conclusiones y Perspectivas Futuras
La predicción del cáncer de cuello de útero mediante machine learning es un paso hacia una medicina más preventiva, eficiente y accesible.
Fernando destaca que futuras mejoras podrían incluir:
- Incorporación de datos socioeconómicos y geográficos.
- Información de la etapa confirmada del cáncer.
- Variables sobre eficacia de vacunas HPV.
- Mayor volumen de datos clínicos para afinar la capacidad predictiva.
Reflexión Final
“El cáncer de cuello de útero es una enfermedad prevenible si se detecta a tiempo.
El uso de modelos predictivos puede marcar la diferencia en comunidades con acceso limitado a métodos tradicionales de diagnóstico.” — Fernando Milia
Este proyecto refleja cómo la Ciencia de Datos aplicada a la salud puede contribuir al bienestar social, y cómo la formación en el Instituto Data Science Argentina brinda las herramientas necesarias para generar impacto real en el mundo.
LinkedIn de Fernando Milia: https://www.linkedin.com/in/fernando-milia-357b5b4a/
