Detección de Fraude en E-Commerce con Machine Learning
Proyecto Final de Marisa Zizdmon
Diplomatura en Ciencia de Datos con R y Python
En este proyecto presentamos un caso real de detección de fraude en comercio electrónico, desarrollado como trabajo final de la Diplomatura en Ciencia de Datos del Instituto Data Science Argentina. El objetivo fue construir un modelo predictivo capaz de identificar transacciones fraudulentas y reducir pérdidas económicas dentro de una plataforma de ventas online.
La empresa ficticia Un-Commerce detectó un aumento significativo en transacciones fraudulentas a pesar de su crecimiento sostenido. Por ese motivo, se solicitó desarrollar una solución basada en Machine Learning que permitiera anticipar el fraude y mejorar la rentabilidad.
Descripción del Dataset utilizado en el proyecto
El dataset utilizado contiene 23.634 transacciones, cada una con 16 variables relacionadas con operaciones de e-commerce:
- ID de transacción
- ID del cliente
- Monto total
- Fecha y hora
- Método de pago
- Categoría del producto
- Cantidad
- Edad del cliente
- Ubicación
- Tipo de dispositivo
- IP
- Dirección de envío
- Dirección de facturación
- Etiqueta de fraude (variable target)
- Antigüedad de la cuenta
- Horario de la transacción
Durante la revisión inicial se detectaron problemas como:
- Edades negativas o improbables
- Variables con cardinalidad extremadamente alta
- Dataset altamente desbalanceado, con solo un 5,17% de casos fraudulentos
Estos puntos motivaron un preprocesamiento exhaustivo.
Análisis Exploratorio (EDA)
El análisis exploratorio permitió identificar patrones clave asociados al fraude:
Diferencias en el monto
Las transacciones fraudulentas presentaron montos significativamente mayores, llegando hasta los 10.000, mientras que las legítimas rara vez superaron los 2.000.
Antigüedad de la cuenta
Más del 50% de los fraudes provienen de cuentas creadas hacía menos de 52 días.
Horario de la transacción
Las operaciones entre las 00:00 y las 05:00 AM mostraron una incidencia muy superior de fraude.
Heatmaps
Los cruces entre monto, antigüedad y horario mostraron zonas críticas donde la tasa de fraude se dispara, especialmente:
- Cuentas nuevas + montos altos
- Cuentas nuevas + transacciones nocturnas
Estas variables se consolidaron como features predictivas clave.
Preprocesamiento y Feature Engineering
El proceso incluyó:
- Corrección de edades no válidas mediante reemplazo por la mediana
- Selección de columnas relevantes
- One-hot encoding para variables categóricas
- Separación en train/test
- Generación de datasets específicos para cada algoritmo
- Identificación de las cinco variables con mayor importancia mediante Random Forest
Esto permitió reducir ruido y mejorar la interpretabilidad del modelo.
Modelos de Machine Learning Utilizados
Se entrenaron cuatro modelos principales:
1. Random Forest (Top 5 Features)
Un modelo simplificado para evaluar si pocas variables podían capturar adecuadamente el patrón del fraude.
2. Random Forest con Hiperparámetros
Incluyó u optimización de mtry y otros parámetros críticos.
3. XGBoost sin balanceo (tuneado con grid search)
Modelo potente con cross validation y ajuste fino de hiperparámetros.
4. XGBoost con Downsampling
Incluyó técnicas de balanceo para mejorar recall y detección de fraudes reales.
Resultados y Métricas
Entre los hallazgos:
- XGBoost mostró mejor AUC, recall y rendimiento general en clases desbalanceadas.
- El Random Forest reducido (solo 5 features) mantuvo un rendimiento competitivo, lo cual es valioso para modelos operativos más livianos.
- Las variables más predictivas fueron:
- Antigüedad de la cuenta
- Horario
- Monto
- Cantidad
- Tipo de dispositivo
Conclusiones del Proyecto sobre la Detección de Fraude en E-Commerce con Machine Learning
El análisis permitió construir un modelo de Machine Learning que detecta transacciones fraudulentas con alta precisión. Además, se identificaron varias recomendaciones operativas:
- Mayor control sobre cuentas nuevas
- Alertas automáticas en transacciones nocturnas
- Monitoreo de montos atípicos
- Integración del modelo en tiempo real
Este proyecto demuestra cómo la Ciencia de Datos aporta soluciones concretas a problemas críticos del e-commerce.
LinkedIn de Marisa Zizdmon: https://www.linkedin.com/in/marisa-zizmond-112a9155/