🎄 Promoción Navidad: 12 cuotas sin interés con todos los medios de pago | Además con tu inscripción te incluimos GRATIS el Curso Experto en Power BI

Detección de Fraude en E-Commerce con Machine Learning

Proyecto Final de Marisa Zizdmon
Diplomatura en Ciencia de Datos con R y Python

En este proyecto presentamos un caso real de detección de fraude en comercio electrónico, desarrollado como trabajo final de la Diplomatura en Ciencia de Datos del Instituto Data Science Argentina. El objetivo fue construir un modelo predictivo capaz de identificar transacciones fraudulentas y reducir pérdidas económicas dentro de una plataforma de ventas online.

La empresa ficticia Un-Commerce detectó un aumento significativo en transacciones fraudulentas a pesar de su crecimiento sostenido. Por ese motivo, se solicitó desarrollar una solución basada en Machine Learning que permitiera anticipar el fraude y mejorar la rentabilidad.

Descripción del Dataset utilizado en el proyecto

El dataset utilizado contiene 23.634 transacciones, cada una con 16 variables relacionadas con operaciones de e-commerce:

  • ID de transacción
  • ID del cliente
  • Monto total
  • Fecha y hora
  • Método de pago
  • Categoría del producto
  • Cantidad
  • Edad del cliente
  • Ubicación
  • Tipo de dispositivo
  • IP
  • Dirección de envío
  • Dirección de facturación
  • Etiqueta de fraude (variable target)
  • Antigüedad de la cuenta
  • Horario de la transacción

Durante la revisión inicial se detectaron problemas como:

  • Edades negativas o improbables
  • Variables con cardinalidad extremadamente alta
  • Dataset altamente desbalanceado, con solo un 5,17% de casos fraudulentos

Estos puntos motivaron un preprocesamiento exhaustivo.

El análisis exploratorio permitió identificar patrones clave asociados al fraude:

Diferencias en el monto

Las transacciones fraudulentas presentaron montos significativamente mayores, llegando hasta los 10.000, mientras que las legítimas rara vez superaron los 2.000.

Antigüedad de la cuenta

Más del 50% de los fraudes provienen de cuentas creadas hacía menos de 52 días.

Horario de la transacción

Las operaciones entre las 00:00 y las 05:00 AM mostraron una incidencia muy superior de fraude.

Heatmaps

Los cruces entre monto, antigüedad y horario mostraron zonas críticas donde la tasa de fraude se dispara, especialmente:

  • Cuentas nuevas + montos altos
  • Cuentas nuevas + transacciones nocturnas

Estas variables se consolidaron como features predictivas clave.

El proceso incluyó:

  • Corrección de edades no válidas mediante reemplazo por la mediana
  • Selección de columnas relevantes
  • One-hot encoding para variables categóricas
  • Separación en train/test
  • Generación de datasets específicos para cada algoritmo
  • Identificación de las cinco variables con mayor importancia mediante Random Forest

Esto permitió reducir ruido y mejorar la interpretabilidad del modelo.

Se entrenaron cuatro modelos principales:

1. Random Forest (Top 5 Features)

Un modelo simplificado para evaluar si pocas variables podían capturar adecuadamente el patrón del fraude.

2. Random Forest con Hiperparámetros

Incluyó u optimización de mtry y otros parámetros críticos.

3. XGBoost sin balanceo (tuneado con grid search)

Modelo potente con cross validation y ajuste fino de hiperparámetros.

4. XGBoost con Downsampling

Incluyó técnicas de balanceo para mejorar recall y detección de fraudes reales.

Entre los hallazgos:

  • XGBoost mostró mejor AUC, recall y rendimiento general en clases desbalanceadas.
  • El Random Forest reducido (solo 5 features) mantuvo un rendimiento competitivo, lo cual es valioso para modelos operativos más livianos.
  • Las variables más predictivas fueron:
    • Antigüedad de la cuenta
    • Horario
    • Monto
    • Cantidad
    • Tipo de dispositivo

El análisis permitió construir un modelo de Machine Learning que detecta transacciones fraudulentas con alta precisión. Además, se identificaron varias recomendaciones operativas:

  • Mayor control sobre cuentas nuevas
  • Alertas automáticas en transacciones nocturnas
  • Monitoreo de montos atípicos
  • Integración del modelo en tiempo real

Este proyecto demuestra cómo la Ciencia de Datos aporta soluciones concretas a problemas críticos del e-commerce.

LinkedIn de Marisa Zizdmon: https://www.linkedin.com/in/marisa-zizmond-112a9155/

Si te interesa aprender más sobre Ciencia de Datos y proyectos aplicados con Python y R 👇👇

Artículo añadido al carrito.
0 artículos - $0,00