Diplomatura en ciencia de datos con R y Python

Diplomatura en Ciencia de Datos con R y Python

Para los alumnos que se inscriban desde el exterior de Argentina, este precio de promoción es aproximadamente de $599 dólares. Este valor puede variar según la cotización diaria que apliquen las plataformas de cobro PayU – Paypal

Podes inscribirte desde Argentina abonando con tarjeta de crédito, débito, o transferencia bancaria.
Podes inscribirte desde todos los países de Latinoamérica abonando con tarjeta de crédito a través de PayU (valor convertido a moneda local) o a través de PayPal (valor convertido a dolares).

Plan de estudios de la Diplomatura en Ciencia de Datos con R y Python

La calidad académica de la Diplomatura en Ciencia de Datos con R y Python ha sido avalada por la Resolución Nro 290/20 de la Universidad Tecnológica Nacional UTN FRRQ.

Objetivos:

Aprenderás los principales algoritmos de aprendizaje supervisado y no supervisado. Entre los algoritmos supervisados verás árboles de decisión, redes neuronales, reglas de asociación, bayes ingenuo, bosques aleatorios. Y no supervisado como agrupamiento.

Descubrirás además cómo usar series las temporales, el método de Montecarlo, los algoritmos genéticos, y las técnicas de regresión, minería de textos y Big Data. Estas aplicaciones podrás utilizarlas en múltiples campos. Como negocios, salud, recursos humanos, cobranzas, finanzas, publicidad, marketing, procesos de servicios y de producción, urbanismo, políticas públicas, etc.

Que los alumnos:

  • Entiendan los conceptos del campo
  • Manejen los principales algoritmos para crear modelos predictivos
  • Utilicen las herramientas de aprendizaje no supervisado
  • Sepan medir con criterio del negocio los resultados de sus modelos
  • Participen de las experiencias aportadas por los instructores

Programa Analítico:

Definiciones de Ciencia de Datos

  • Introducción a la Ciencia de Datos
  • Niveles a los que opera la ciencia de datos
  • Introducción a Data Warehouse
  • Introducción a Data Mining 
  • Introducción a Knowledge Discovery
  • Introducción a Herramientas OLAP y Tableros de comando
  • Repaso de herramientas disponibles
  • Taxonomía de las competencias de un científico de datos
  • Primeros pasos en R
  • Instalando y cargando paquetes en R

Introducción a R

  • Variables, vectores y matrices
  • Dataframes
  • Paquetes y librerías
  • Manejo de archivos csv
  • Conversiones de tipos
  • Conexión a bases de datos
  • Ejecución condicional
  • Bucles
  • Funciones en R
  • Medidas estadísticas
  • Correlaciones
  • Funciones estadísticas

Introducción a Python

  • Descarga e instalación
  • Principales librerías
  • Variables y tipos de datos
  • Listas, tuplas y diccionarios
  • Ejecución condicional
  • Ciclos definidos e indefinidos
  • Manejo de Excepciones
  • Funciones y Generadores
  • Clases y objetos
  • Manejo de archivos y directorios
  • Conexión a archivos planos
  • Conexión a Excel
  • Conexión a Bases de Datos

Tests básicos

  • Repaso de conceptos de probabilidad y estadística
  • Test de Hipótesis
  • Correlaciones
  • AB Test
  • Cálculo de correlaciones en R con cor
  • Funciones de distribución en R
  • Histogramas en R
  • Gráficos de líneas en R
  • Gráficos de áreas en R
  • Uso de NumPy
  • Uso de Pandas
  • Uso de MatPlotLib
  • Módulo matplotlib
  • Módulo math
  • Módulo numpy
  • Módulo yt
  • Módulo mayavi

Regresiones

  • Regresión Lineal
  • Regresión polinómica
  • Regresión exponencial y logarítmica
  • Regresión de dos variables 
  • Cálculo de regresiones en R con lm
  • Cálculo de regresiones logísticas en R con glm
  • Regresiones en Python
  • Regresión logística en Python

Arboles de decisión

  • Algoritmo básico en Excel
  • División en entrenamiento y prueba
  • Uso de Rpart y cp
  • Predicción y valoración de la solución
  • Uso de Party
  • Aplicación al problema del call center
  • Instalación y uso del paquete en Python
  • Ejemplo en Python
  • Principales parámetros de ajuste y control

Clusters

  • Algoritmo básico en Excel
  • Uso de kmeans en R
  • Ejemplo de aplicación real en R
  • Otros algoritmos de agrupamiento en R
  • Ejercicio de aplicación de agrupamiento de mascotas
  • Uso de Scikit-Learn en Python
  • Análisis de componentes principales en Python
  • K-Medias en Python
  • Clustering jerárquico en Python

Reglas de Asociación

  • Algoritmo básico en Access
  • División en entrenamiento y prueba en R
  • Uso de arules en R
  • Ejemplo de una aplicación real votación de reglas en R
  • Ejemplo de una aplicación real a datos de ventas en supermercados en R
  • Instalación y uso del paquete en Python
  • Ejemplo en Python
  • Principales parámetros de ajuste y control
  • Esquema de votación de reglas en Python

Redes Neuronales

  • Algoritmo básico en Excel
  • División en entrenamiento y prueba en R
  • Uso de neuralnet
  • Predicción y valoración de la solución en R
  • Discusión del problema de legibilidad de los resultados desde el negocio
  • Competencia entre árboles y redes en un caso concreto en R
  • Instalación y uso del paquete en Python
  • Ejemplo en Python
  • Principales parámetros de ajuste y control en Python
  • Problema concreto en Python

Algoritmos genéticos

  • Algoritmo básico en Excel
  • Discusión del tipo de problemas en los que se aplica
  • Discusión de otros mecanismos de optimización
  • Implementación en R del uso de algoritmos genéticos como 
    • Valores reales
    • Binarios
    • Permutaciones
  • Implementación en Python

Series temporales

  • Taxonomía
  • Separación de componentes
  • Predicciones
  • ARIMA implementado en R
  • Predicción en series con un único período
  • Predicción en series con múltiples períodos
  • Predicción en series con períodos variables: renormalización
  • Implementación en Python

Método de Simulación de Montecarlo

  • Algoritmo básico en Excel
  • Discusión de la utilidad del método
  • Comparación con el análisis de escenarios
  • Ejemplo de una aplicación real
  • Ejemplo simple implementado en R
  • Ejemplo simple implementación en Python

Minería de textos

  • Clasificación supervisada de piezas de texto
  • Construcción de una red semántica
  • Discusión de las posibilidades de reconocimiento de voz
  • Ejemplos de aplicación real del algoritmo de clasificación
  • Aplicación a la detección de sentimientos
  • Ejemplo de implementación en Python

Vecinos Cercanos (Knn)

  • Instalación y uso del paquete en R
  • Ejemplo conceptual en Excel
  • Ejemplo en R
  • Instalación y uso del paquete en Python
  • Ejemplo en Python
  • Principales parámetros de ajuste y control

Bayes Ingenuo

  • Implementación en Excel
  • Ejemplo de aplicación en R
  • Comparación de 4 algoritmos predictivos (Bayes ingenuo, árboles, redes neuronales y regression logística)
  • Ejemplo de aplicación en Python

Random Forest

  • Bootstrap y bagging
  • Descripción conceptual del método random forest
  • Paquete randomForest para R
  • Ejemplo de aplicación 
  • Comparación con otras técnicas
  • Implementación en Python

Métodos bayesianos avanzados

  • Descripción conceptual del método:
  • Regresión lineal bayesiana
  • Regresión logística bayesiana
  • Inferencia bayesiana
  • Red bayesiana 
  • Ejemplos de aplicación en R
    • Paquete BAS
    • Paquete brms
    • Paquete arm
    • Paquete bnlearnd
  • Comparación con otras técnicas
  • Ejemplos de aplicación en Python

Máquina de soporte vectorial

  • Descripción conceptual del método
  • Paquete e1071 para R
  • Ejemplo de aplicación en R
  • Ejemplo de aplicación en Python
  • Comparación con otras técnicas

Discriminante lineal y cuadrático

  • Instalación y uso del paquete
  • Ejemplo conceptual en Excel
  • Ejemplo en R
  • Ejemplo en Python
  • Principales parámetros de ajuste y control en R
  • Principales parámetros de ajuste y control en Python
  • Problema concreto

Análisis de Fourier

  • Descripción conceptual
  • Ejemplo conceptual en Excel
  • Instalación y uso del paquete en R
  • Instalación y uso del paquete en Python
  • Ejemplo en R
  • Ejemplo en Python

Herramientas geográficas

  • Distancias
  • Implementación en R
    • Paquete sf
    • Paquete nngeo
  • Aplicación práctica en R
  • Implementación en Python
  • Aplicación práctica en Python

Bases de datos documentales

  • Instalación de MongoDB
  • Conexión a R
  • Conexión a Python
  • Aplicación práctica en R
  • Aplicación práctica en Python

Diseño de Datawarehouses

  • Diferencias entre los DW y los OLTP
  • Tipos de datos y soportes
  • Dimensiones y jerarquías
  • Estimación de recursos y tiempos según tipos de datos
  • Ejemplos de staging
  • Interacción entre equipos (DB-ETL-Soporte-FrontEnd-Usuarios)
  • Ejercicios de diseño de DW

Diseño y construcción de ETL

  • Procesos ETL: generalidades, buenas prácticas, esquemas de ETL
  • Detalles de cada etapa: extracción, limpieza, normalización, transformación, carga
  • Estrategias de update
  • Ejercicios de diseño de ETL para la carga inicial
  • Ejercicios de diseño de ETL para la actualización
  • Licencia, descarga e instalación de Open Refine
  • Uso general como herramienta de limpieza de datos
  • Pre-procesado de los datos
  • Casos de interés y ejemplos
  • Licencias, descarga e instalación de Pentaho-Kettle
  • Pentaho Kettle: funciones, características, utilización
  • Auditoría y documentación
  • Ejemplos de uso

Big Data

  • ¿Qué es Big Data?
  • ¿Cuándo usar Big Data?
  • ¿Cómo armar una infraestructura para Hadoop?
  • Ejemplo de una aplicación de Map Reduce: wordcount
  • Como evitar Hadoop

Modalidad a distancia de forma Online.

Dos clases semanales por videoconferencias interactivas, una teórica y una práctica. La duración de cada clase es de 30 a 60 minutos dependiendo del tema, la cantidad de participantes y el nivel de intervenciones conseguido.

Metodología:

El estudiante tiene actividad complementaria con material de soporte de las clases, material teórico para estudiar, ejercicios resueltos y para resolver, corrección de ejercicios y autoevaluaciones.
La dedicación recomendada a estas actividades es de ocho horas semanales.

Soporte docente por Grupo de WhatsApp, email y foro.

Los grupos de participantes son reducidos y de varios países hispanoparlantes. Lo que aporta diferentes visiones y la posibilidad de networking internacional.

Horarios de la Cursada (GTM-3)

Diplomatura en Ciencia de Datos con R y PythonDíaHora
Introducción a la Ciencia de Datos2/11/202019 hs
Iniciación en R 1 de 35/11/202019 hs
Iniciación en R 2 de 39/11/202019 hs
Iniciación en R 3 de 312/11/202019 hs
Iniciación en Python 1 de 46/11/202019 hs
Iniciación en Python 2 de 47/11/202012 hs
Iniciación en Python 3 de 413/11/202019 hs
Iniciación en Python 4 de 414/11/202012 hs
Horarios recurrentes de la cursada a partir del 16/11/2020
Clases teórico – prácticas regulares de PythonSábados11 hs
Clases teóricas regulares RJueves20 hs
Clases prácticas regulares RMartes20 hs

Instancias de evaluación:

Examen final.

Requisitos de aprobación

Mínimo 60 % de respuestas correctas.

Equipo docente