}

Diplomatura en Ciencia de Datos

Diplomatura en Ciencia de Datos

Para los alumnos que se inscriban desde el exterior, este precio de promoción es aproximadamente de $299 dólares. Este valor puede variar según la cotización diaria que apliquen las plataformas de cobro PayU – Paypal

Podes inscribirte desde Argentina abonando con tarjeta de crédito, débito, o transferencia bancaria.
Podes inscribirte desde todos los países de Latinoamérica abonando con tarjeta de crédito a través de PayU (valor convertido a moneda local) o a través de PayPal (valor convertido a dólares).

Plan de Estudios de la diplomatura en Ciencia de Datos

La calidad académica de la Diplomatura en Ciencia de Datos ha sido avalada por la Resolución Nro 290/20 de la Universidad Tecnológica Nacional UTN FRRQ.

Objetivos

La Diplomatura de Ciencias de Datos (Data Science) está pensado como un primer escalón en la formación de científicos de datos.

Pueden hacerla tanto los que persigan una carrera de tipo gerencial y quieran conocer las posibilidades de las herramientas como los que quieran utilizarlas con sus propias manos. Con la Diplomatura de Ciencia de Datos aprenderás los principales algoritmos de aprendizaje supervisado como árboles de decisión, redes neuronales, reglas de asociación, bayes ingenuo, bosques aleatorios, y no supervisado como agrupamiento.

Además descubrirás cómo usar series temporales, el método de Montecarlo, los algoritmos genéticos, y las técnicas de regresión, minería de textos y Big Data.

Las aplicaciones podrás utilizarlas en múltiples campos, como negocios, salud, recursos humanos, cobranzas, finanzas, publicidad, marketing, procesos de servicios y de producción, urbanismo, políticas públicas, etc.

Programa Analítico:

Introducción a Ciencia de Datos

  • Introducción a la Ciencia de Datos
  • Niveles a los que opera la ciencia de datos
  • Introducción a Data Warehouse
  • Introducción a Data Mining
  • Introducción a Knowledge Discovery
  • Introducción a Herramientas OLAP y Tableros de comando
  • Repaso de herramientas disponibles
  • Taxonomía de las competencias de un científico de datos
  • Primeros pasos en R
  • Instalando y cargando paquetes en R

Diseño y construcción de un DW

  • Diferencias entre los DW y los OLTP
  • Tipos de datos y soportes
  • Dimensiones y jerarquías
  • Estimación de recursos y tiempos según tipos de datos
  • Ejemplos de staging
  • Interacción entre equipos (DB-ETL-Soporte-FrontEnd-Usuarios)
  • Ejercicios de diseño de DW

Tests básicos

  • Repaso de conceptos de probabilidad y estadística
  • Test de Hipótesis
  • Correlaciones AB Test
  • Cálculo de correlaciones en R con cor
  • Funciones de distribución en R
  • Histogramas en R
  • Gráficos de líneas en R
  • Gráficos de áreas en R

Regresiones

  • Regresión Lineal
  • Regresión polinómica
  • Regresión exponencial y logarítmica
  • Regresión de dos variables
  • Cálculo de regresiones en R con lm
  • Cálculo de regresiones logísticas en R con glm

Árboles de decisión

  • Algoritmo básico en Excel
  • División en entrenamiento y prueba
  • Uso de Rpart y cp
  • Predicción y valoración de la solución
  • Uso de Party
  • Aplicación al problema del call center

Clusters

  • Algoritmo básico en Excel
  • Uso de kmeans
  • Ejemplo de aplicación real
  • Otros algoritmos de agrupamiento en R
  • Ejercicio de aplicación de agrupamiento de mascotas

Reglas de Asociación

  • Algoritmo básico en Access
  • División en entrenamiento y prueba
  • Uso de arules en R
  • Ejemplo de una aplicación real votación de reglas
  • Ejemplo de una aplicación real a datos de ventas en supermercados

Redes Neuronales

  • Algoritmo básico en Excel
  • División en entrenamiento y prueba
  • Uso de neuralnet
  • Predicción y valoración de la solución
  • Discusión del problema de legibilidad de los resultados desde el negocio
  • Competencia entre árboles y redes en un caso concreto

Algoritmos genéticos

  • Algoritmo básico en Excel
  • Discusión del tipo de problemas en los que se aplica
  • Discusión de otros mecanismos de optimización
  • Implementación en R del uso de algoritmos genéticos como Valores reales
  • Binarios Permutaciones

Series temporales

  • Taxonomía
  • Separación de componentes
  • Predicciones
  • ARIMA implementado en R
  • Predicción en series con un único período
  • Predicción en series con múltiples períodos
  • Predicción en series con períodos variables: renormalización

Método de Simulación de Montecarlo

  • Algoritmo básico en Excel
  • Discusión de la utilidad del método
  • Comparación con el análisis de escenarios
  • Ejemplo de una aplicación real
  • Ejemplo simple implementado en R

Minería de textos

  • Clasificación supervisada de piezas de texto
  • Construcción de una red semántica
  • Discusión de las posibilidades de reconocimiento de voz
  • Ejemplos de aplicación real del algoritmo de clasificación
  • Aplicación a la detección de sentimientos

Diseño y construcción de ETL

  • Procesos ETL: generalidades, buenas prácticas, esquemas de ETL
  • Detalles de cada etapa: extracción, limpieza, normalización, transformación, carga
  • Estrategias de update
  • Ejercicios de diseño de ETL para la carga inicial
  • Ejercicios de diseño de ETL para la actualización
  • Licencia, descarga e instalación de Open Refine
  • Uso general como herramienta de limpieza de datos Pre-procesado de los datos
  • Casos de interés y ejemplos
  • Licencias, descarga e instalación de Pentaho-Kettle
  • Pentaho Kettle: funciones, características, utilización Auditoría y documentación
  • Ejemplos de uso

Bayes Ingenuo

  • Implementación en Excel
  • Ejemplo de aplicación en R
  • Comparación de 4 algoritmos predictivos (Bayes ingenuo, árboles, redes neuronales y regression logística)

Random Forest

  • Descripción conceptual del método
  • Paquete randomForest
  • Ejemplo de aplicación
  • Comparación con otras técnicas

Métodos bayesianos avanzados

  • Descripción conceptual del método: Regresión lineal bayesiana
  • Regresión logística bayesiana
  • Inferencia bayesiana
  • Red bayesiana
  • Ejemplos de aplicación
  • Paquete BAS
  • Paquete brms
  • Paquete arm
  • Paquete bnlearnd
  • Comparación con otras técnicas

Máquina de soporte vectorial

  • Descripción conceptual del método
  • Paquete e1071
  • Ejemplo de aplicación
  • Comparación con otras técnicas

Big Data

  • ¿Qué es Big Data?
  • ¿Cuándo usar Big Data?
  • ¿Cómo armar una infraestructura para Hadoop?
  • Ejemplo de una aplicación de Map Reduce: wordcount
  • Como evitar Hadoop
  • Pig Hive
  • Cassandra

Metodología:

Modalidad a distancia de forma Online.

Dos clases semanales por videoconferencias interactivas, una teórica y una práctica. La duración de cada clase es de 30 a 60 minutos dependiendo del tema, la cantidad de participantes y el nivel de intervenciones conseguido.

El estudiante tiene actividad complementaria con material de soporte de las clases, material teórico para estudiar, ejercicios resueltos y para resolver, corrección de ejercicios y autoevaluaciones.
La dedicación recomendada a estas actividades es de ocho horas semanales.

Soporte docente por Grupo de WhatsApp, email y foro.

Los grupos de participantes son reducidos y de varios países hispanoparlantes. Lo que aporta diferentes visiones y la posibilidad de networking internacional.

Horarios de la Cursada (GTM-3) de la Diplomatura de Ciencia de Datos

Diplomatura en ciencia de datosDíaHora
Introducción a la Ciencia de Datos2/11/202019 hs
Iniciación en R 1 de 35/11/202019 hs
Iniciación en R 2 de 39/11/202019 hs
Iniciación en R 3 de 312/11/202019 hs
Horarios recurrentes a partir del 16/11/2020
Clases teóricas regularesJueves20 hs
Clases prácticas regularesMartes20 hs

Instancias de evaluación:

Examen final.

Requisitos de aprobación

Mínimo 60 % de respuestas correctas.

Equipo docente de la Diplomatura de Ciencia de Datos