Predicción del índice de calidad del agua del Río de la Plata con Machine Learning
Proyecto Final de Silvina Toffolo
Diplomatura en Ciencia de Datos con R y Python
El control y monitoreo de la calidad del agua es una de las tareas más relevantes para la gestión ambiental y la salud pública. En este contexto, la ciencia de datos y el Machine Learning ofrecen herramientas poderosas para anticipar cambios y detectar problemas de contaminación de manera temprana.
En este post presentamos el proyecto “Predicción del índice de calidad del agua del Río de la Plata con Machine Learning”, realizado por Silvina Toffolo, ingeniera química y alumna del Instituto Data Science Argentina, quien aplicó modelos de clasificación para evaluar el estado del agua en distintos puntos del Río de la Plata.
Objetivo del proyecto
El propósito principal del trabajo fue evaluar y predecir el índice de calidad del agua (ICA) del Río de la Plata a partir de parámetros físico-químicos y biológicos.
Este índice es un valor que sintetiza el estado del agua considerando múltiples variables (como pH, temperatura, oxígeno disuelto, turbidez, nitratos, entre otros), y permite clasificar el agua desde extremadamente deteriorada hasta apta para consumo.
La meta fue construir modelos que permitieran clasificar automáticamente el ICA y anticipar alertas de deterioro en tiempo real, optimizando la toma de decisiones en procesos como la potabilización o el monitoreo ambiental.
Preparación y limpieza del dataset
Para llevar adelante el análisis, Silvina utilizó datos abiertos proporcionados por la Secretaría de Medio Ambiente, correspondientes a distintas campañas de medición del Río de la Plata durante varios años.
Una parte fundamental del trabajo fue la limpieza y estandarización de los datos, ya que el dataset contenía inconsistencias como:
- Valores faltantes o no medidos.
- Leyendas con distintos formatos (“no se midió”, “sin datos”, etc.).
- Sensibilidad de los instrumentos que arrojaban valores negativos o por debajo del límite de detección.
La limpieza implicó reemplazar valores inválidos, unificar formatos y asignar límites mínimos de detección, permitiendo así contar con un conjunto de datos apto para el análisis exploratorio y la modelización.
Análisis exploratorio y tendencias
El análisis exploratorio de los datos permitió observar una tendencia preocupante de degradación en la calidad del agua a lo largo de los años.
La mayoría de los puntos de muestreo se clasificaron como “agua mala” o “extremadamente deteriorada”, sin registros recientes de buena calidad.
Estos resultados confirman la necesidad de aplicar enfoques predictivos que permitan detectar variaciones tempranas y actuar antes de que se produzcan impactos mayores.
Modelos de Machine Learning aplicados
Para la etapa predictiva, se entrenaron y compararon tres modelos de clasificación:
- Random Forest
- Accuracy: 0,91
- F1 Score: 0,84
- Kappa: 0,70
- Árboles de decisión
- Accuracy: 0,86
- F1 Score: 0,74
- Kappa: 0,51
- Redes neuronales (TensorFlow)
- Accuracy: 0,86
- F1 Score: 0,79
- Kappa: 0,58
Entre los tres modelos, el Random Forest fue el que obtuvo el mejor desempeño general, seguido de cerca por la red neuronal.
Estos modelos lograron predecir con alta precisión el índice de calidad de agua, validando la utilidad del Machine Learning en el ámbito ambiental.
Aplicaciones y beneficios
Una de las principales contribuciones del proyecto es su potencial aplicación en sistemas de alerta temprana.
Silvina estimó que, si se implementaran mediciones en tiempo real y los modelos predijeran variaciones abruptas en el índice de calidad del agua, podrían evitarse grandes desperdicios de recursos en procesos de potabilización innecesarios.
Además, este enfoque podría integrarse a tableros de control que visualicen los parámetros en tiempo real, facilitando decisiones rápidas ante eventos de contaminación, como derrames o anomalías químicas.
Impacto ambiental y social
El Río de la Plata es una de las principales fuentes de agua para millones de personas en Argentina y Uruguay.
Contar con herramientas de predicción basadas en datos no solo permite optimizar recursos técnicos y económicos, sino también proteger la salud pública y los ecosistemas fluviales.
Este proyecto demuestra cómo la ciencia de datos puede tener un impacto directo y positivo en el medio ambiente, combinando conocimiento técnico, programación y compromiso social.
Conclusión
El trabajo de Silvina Toffolo, realizado en el marco del Instituto Data Science Argentina, es un excelente ejemplo de cómo la inteligencia artificial y el Machine Learning pueden aplicarse a problemas ambientales reales.
La predicción del índice de calidad del agua del Río de la Plata con Machine Learning abre la puerta a nuevas estrategias de gestión y monitoreo, impulsando una visión más sustentable e inteligente del uso de nuestros recursos naturales.
LinkedIn de Silvina Toffolo: https://www.linkedin.com/in/silvinatoffolo/
