Experto en Minería de Textos

Certificado en Experto en Minería de Textos

Metodología:

Experto en Minería de Textos Modalidad a distancia de forma Online.

Modalidad:

Dos clases semanales por videoconferencias interactivas, una teórica y una práctica. La duración de cada clase es de 30 a 60 minutos dependiendo del tema, la cantidad de participantes y el nivel de intervenciones conseguido.

El estudiante tiene actividad complementaria con material de soporte de las clases, material teórico para estudiar, ejercicios resueltos y para resolver, corrección de ejercicios y autoevaluaciones.
La dedicación recomendada a estas actividades es de ocho horas semanales.

Soporte docente por Grupo de WhatsApp, email y foro.

Los grupos de participantes son reducidos y de varios países hispanoparlantes. Lo que aporta diferentes visiones y la posibilidad de networking internacional.

Plan de Estudios de Experto en Minería de Texto con R

Objetivos:

La minería de textos es el proceso de analizar información que por medio de la identificación de patrones o correlaciones entre los términos. Lo que permite encontrar información que no está explícita dentro del texto.
La minería de textos tiene muchas aplicaciones. Se usa para obtener información que de otro modo sería muy difícil encontrar y tomar decisiones. Por ejemplo responder a consultas de los clientes, prevenir delitos que se hacen en línea y contra el fraude virtual, indexación de banco de datos, filtrar información no importante, filtrar spam, etc.

Programa analítico

Unidad 1: Introducción

Presentación del curso. Conceptos básicos, aplicaciones y limitaciones del Procesamiento del Lenguaje Natural

Conceptos de Machine Learning y de Procesamiento de Lenguaje Natural, y cómo trabajan en conjunto.

Unidad 2: Construcción de un Corpus

Construcción de un corpus a partir de archivos locales.

Manipulación de texto con Pandas.

Introducción al Web Scraping. Uso de la librería Beautiful Soup.

Introducción a la descarga de archivos a través de APIs.

Unidad 3: Preparación de los datos

Escritura y aplicación de expresiones regulares. 

Introducción a la librería NLTK (Natural Language Toolkit) para preprocesamiento y normalización de textos. 

Tokenización, Stemming y Lematización.

Eliminación de stopwords.

Modelos de N-gramas de palabras y caracteres.

Algoritmos básicos de parsing en la librería SpaCy.

Unidad 4: Análisis no supervisado

¿En qué consiste la Clasificación de Textos?

Modelo vectorial de texto.

Construcción de la matriz de palabras por documentos.

Modelos de bolsa de palabras.

Construcción de la matriz de frecuencias por documentos.

Visualización de los resultados y construcción de nube de palabras.

Aplicación de k-means a la clasificación de documentos.

Optimización de la cantidad de clusters.

Caso de uso de clasificación de textos.

Unidad 5: Análisis supervisado

Aplicación de árboles de decisión a la clasificación de documentos.

Aplicación de Bayes ingenuo a la clasificación de documentos.

Aplicación de regresión logística a la clasificación de documentos.

Aplicación de máquinas de soporte vectorial a la clasificación de documentos.

Análisis de sentimientos.

Caso de uso de análisis de sentimientos

Pre-requisitos:

Se sugiere haber cursado la diplomatura en Python orientado a la ciencia de datos o poseer experiencia y conocimientos equivalentes

Recursos ofrecidos:

  • Clases teóricas en vivo: 1 x semana
  • Clases prácticas en vivo: 1 x semana
  • Material teórico para estudiar
  • Ejercicios resueltos
  • Corrección de ejercicios
  • Autoevaluaciones

Bibliografía

Bird, Steven, Ewan Klein y Edward Loper (2009). Natural language processing with Python: analyzing text with the natural language toolkit. California: O’Reilly Media.

Clark, Alexander (2003, March). Pre-processing very noisy text. In Proc. of Workshop on Shallow Processing of Large Corpora (pp. 12-22).

Clark, Eleanor y Kenji Araki (2011). Text normalization in social media: progress, problems and applications for a pre-processing system of casual English. Procedia-Social and Behavioral Sciences, 27, 2-11.

Downey, Allen (2012). Think Python. Massachusetts: Green Tea Press.

Jurafsky, Daniel y Christopher Martin (2000) Capítulo 2 “Regular expressions and automata”. Speech and language processing. New Jersey: Prentice-Hall, 21-56.

Manning, Christopher y Hinrich Schütze (1999). Foundations of Statistical Natural Language Processing. Cambridge/Massachusetts: The MIT Press.

Moreno Sandoval, Antonio (1998). Introducción a la lingüística computacional. Introducción a los modelos simbólicos, estadísticos y biológicos. Madrid: Síntesis.

Russell, Stuart J. y Peter Norvig (1995). Capítulo 23: “Practical Natural Language Processing”. Artificial Intelligence: a modern approach. New Jersey: Prentice Hall.

Watt, Andrew (2005). Beginning Regular Expressions. Indianapolis: Wiley Publishing.

Equipo docente