Proyecto: Optimización del Análisis de Agua en Argentina con Machine Learning
Proyecto Final de Juan Belbey
Diplomatura en Ciencia de Datos con R y Python
El agua potable es un derecho humano fundamental, y garantizar su calidad es una prioridad para la salud pública y el desarrollo sostenible. En ese contexto, las herramientas de Ciencia de Datos y Machine Learning pueden ofrecer soluciones innovadoras que optimicen los procesos de análisis y potabilización.
En esta nota compartimos el proyecto final de Juan Belbey, ingeniero químico y egresado de la Diplomatura en Ciencia de Datos con R y Python del Instituto Data Science Argentina, quien desarrolló un modelo de aprendizaje automático para clasificar muestras de agua como potables o no potables.
🔬 Objetivo del proyecto
El proyecto titulado “Optimización del análisis de agua con aprendizaje automático” busca mejorar la eficiencia y precisión en la evaluación de la potabilidad del agua.
El modelo propuesto tiene dos objetivos principales:
- Evitar clasificaciones erróneas que puedan poner en riesgo la salud de las personas al considerar potable un agua que no lo es.
- Reducir costos operativos, evitando descartar innecesariamente agua que sí es apta para el consumo humano.
Estas metas orientan el desarrollo del proyecto, que combina rigor técnico con una clara conciencia ambiental y social.
📊 Metodología y desarrollo
Para abordar el problema, Juan trabajó con un conjunto de datos real compuesto por más de 3.200 muestras de agua, caracterizadas por 10 variables físicoquímicas —como pH, dureza, sólidos disueltos, cloraminas y conductividad— y una variable objetivo: la potabilidad.
El proceso incluyó las siguientes etapas:
- Análisis exploratorio de datos (EDA): detección de valores faltantes, visualización de distribuciones, identificación de outliers y correlaciones entre variables.
- Preprocesamiento: imputación de valores mediante la media, escalado de características con StandardScaler y división del dataset en conjuntos de entrenamiento y prueba (70/30).
- Modelado: aplicación de tres algoritmos de clasificación:
- K-Nearest Neighbors (KNN)
- Random Forest
- Red Neuronal Artificial con Keras
- Evaluación: comparación de los modelos utilizando métricas como Accuracy, Precision, Recall y F1-Score, con especial foco en el equilibrio entre precisión y sensibilidad para la clase de agua potable.
🤖 Resultados y análisis
Los modelos de Random Forest y Red Neuronal obtuvieron los mejores desempeños globales, con exactitudes generales en torno al 68–69%.
Sin embargo, el análisis detallado mostró que la red neuronal logró un mayor recall para la clase de agua potable (0.52), lo que significa que identificó correctamente más de la mitad de las muestras potables, superando ampliamente al modelo Random Forest.
Además, se evaluó el impacto económico de aplicar este modelo en una planta potabilizadora de tamaño mediano. Los resultados estiman:
- 💰 Reducción anual de USD 51.840 en consumo de insumos químicos.
- 🧪 Ahorro del 30% en análisis físicoquímicos, equivalente a USD 2.160 anuales.
- ⚙️ Beneficio total estimado: más de USD 54.000 por año.
Más allá de los números, el modelo ofrece un respaldo técnico y predictivo para la toma de decisiones en plantas de tratamiento, contribuyendo tanto a la eficiencia operativa como a la seguridad del agua distribuida a la comunidad.
🌍 Impacto y conclusiones
Este proyecto demuestra cómo el Machine Learning puede aplicarse de forma práctica en procesos industriales y ambientales, generando beneficios medibles en costos, sustentabilidad y calidad de vida.
Al integrar el conocimiento de la ingeniería química con la ciencia de datos, Juan Belbé logró un caso de estudio que ejemplifica el espíritu de la Diplomatura: convertir datos en decisiones inteligentes que mejoren el mundo real.
“El tener un modelo robusto y un respaldo para la utilización de insumos químicos nos puede ayudar a reducir el consumo en las plantas potabilizadoras y brindar agua segura para toda la comunidad.”
— Juan Belbey, egresado del Instituto Data Science ArgentinaLinkedIn de Juan Belbey: https://www.linkedin.com/in/juanbelbey/
🎓 Formación en Ciencia de Datos
Si te interesa aprender a desarrollar modelos como este y aplicar Ciencia de Datos en proyectos reales 👇👇
