Técnicas de PLN y Machine Learning para mejorar las ventas en e-commerce
Proyecto Final de Mauricio Rostagno
Diplomatura de Ciencia de Datos
En esta ocasión compartimos el trabajo final de Mauricio Rosano, egresado de la Diplomatura en Ciencia de Datos con R y Python del Instituto Data Science Argentina. Su proyecto propone una solución innovadora para un e-commerce con operaciones en Brasil, utilizando técnicas de Procesamiento de Lenguaje Natural y Machine Learning para mejorar las ventas en e-commerce analizando el sentimiento de las reseñas de los clientes.
Objetivos:
💬 ¿Por qué es importante el análisis de sentimientos en el comercio electrónico?
En un mercado digital donde la opinión del cliente puede definir el éxito o el fracaso de una marca, comprender lo que los usuarios expresan en sus reseñas es clave. Las empresas necesitan identificar patrones emocionales en los comentarios —positivos, negativos o neutros— para mejorar sus servicios, retener clientes insatisfechos y potenciar las ventas.
El proyecto de Mauricio se centra en ese desafío: traducir las emociones de los usuarios en información accionable.
⚙️ De los datos crudos al modelo predictivo
El punto de partida fue un amplio conjunto de datos proporcionado por el e-commerce, con más de 117.000 registros de pedidos y 39 variables relacionadas con ventas, categorías de productos, tiempos de entrega y reseñas de clientes.
El proceso comenzó con la limpieza, transformación y unión de tablas relacionales, seguida de un análisis exploratorio que permitió detectar tendencias de ventas y categorías más relevantes. Gracias a Plotly, Mauricio construyó visualizaciones interactivas para analizar las ventas, medios de pago y tiempos de entrega, revelando hallazgos valiosos sobre el comportamiento del cliente.
🧩 Técnicas NLP y Machine Learning utilizados
Dado que las reseñas provenían de Brasil, fue necesario aplicar técnicas específicas de procesamiento de texto en portugués. El pipeline de NLP incluyó:
- Conversión a minúsculas y eliminación de puntuaciones.
- Filtrado de stopwords irrelevantes.
- Tokenización de palabras.
- Creación de una nube de palabras para visualizar los términos más frecuentes.
Para la clasificación de sentimientos, Mauricio utilizó la librería LEIA (Linguistic Inquiry and Effective Analysis), capaz de asignar puntajes de polaridad a cada palabra y determinar si una reseña es positiva, negativa o neutra.
🤖 Modelado predictivo con Machine Learning
Una vez preparado el dataset, se entrenaron tres modelos de aprendizaje automático:
- Random Forest,
- Regresión Logística Multiclase,
- Redes Neuronales (utilizando TensorFlow).
Tras evaluar las métricas de precisión y recall, las redes neuronales resultaron ser el modelo más eficaz, alcanzando un desempeño del 90% de exactitud y mejorando la capacidad de predicción de reseñas negativas, tradicionalmente más difíciles de clasificar.
💰 Impacto económico del modelo de Machine Learning
El proyecto no se quedó en la parte técnica. Mauricio realizó también una evaluación económica del impacto del modelo en el negocio.
Mediante una simulación determinista, estimó las ganancias potenciales derivadas de:
- Destacar reseñas positivas correctamente identificadas (aumentando la confianza y las ventas).
- Retener clientes insatisfechos detectados a tiempo mediante reseñas negativas.
- Reducir los costos de atención por errores de clasificación.
El resultado: un impacto económico estimado en más de 89.000 unidades monetarias en un periodo de tres años, validando el valor estratégico del análisis de sentimientos en la gestión comercial.
🚀 Conclusión
El trabajo de Mauricio Rosano demuestra cómo la Ciencia de Datos puede transformar los datos textuales —a menudo desordenados y subjetivos— en insumos de valor para la toma de decisiones empresariales.
Este tipo de proyectos integran habilidades de análisis, programación, visualización y modelado predictivo, aplicadas a un caso de uso real y con impacto directo en el negocio.
“Cualquier comercio electrónico debería contar con un modelo de gestión de reseñas basado en datos. Es clave para mejorar la reputación, fidelizar clientes y aumentar las ventas”, concluye Mauricio.
👉 Más información en
LinkedIn de Mauricio Rostagno: https://www.linkedin.com/in/mauriciorostagno/
🎓 Formación en Ciencia de Datos con R y Python
¿Querés aprender a desarrollar proyectos como este?
La Diplomatura en Ciencia de Datos con R y Python del Instituto Data Science Argentina te brinda una formación práctica en análisis, modelado y visualización de datos aplicada a escenarios reales. Más información 👇👇👇
