Experto en Minería de Textos

Certificado en Experto en Minería de Textos

Inicio: No Programado Duración: 4 Semanas – 40 Horas

Metodología

Se realizan dos clases online interactivas semanales. Algunas clases son de contenido teórico y otras de enfoque práctico.

Estas clases además, quedan grabadas ante la imposibilidad de asistir, para repaso, o avanzar con un tema de interés.

La duración de cada clase es de 30 a 60 minutos dependiendo del tema, la cantidad de participantes y el nivel de intervenciones conseguido.

Para reforzar los conocimientos vistos en clase, los alumnos realizan actividades complementarias. Disponiendo de material teórico, ejercicios resueltos y para resolver, corrección de ejercicios y autoevaluaciones.

Los docentes dan soporte a los alumnos a través de un Grupo de WhatsApp, email y foro.

Para estas actividades complementarias, los alumnos disponen de materiales de soporte para fortalecer lo aprendido en clase. Estos materiales comprenden material teórico para estudiar, ejercicios resueltos y para resolver, corrección de ejercicios y autoevaluaciones.

La dedicación recomendada a estas actividades es de ocho horas semanales.

Los grupos de participantes son reducidos y de varios países hispanoparlantes. Lo que aporta diferentes visiones y la posibilidad de networking internacional.

Objetivos de la minería de texto

La minería de textos es el proceso de analizar información por medio de la identificación de patrones o correlaciones entre los términos.

Lo que permite encontrar información que no está explícita dentro del texto.

Se usa para obtener información que de otro modo sería muy difícil encontrar y tomar decisiones.

Su amplio campo de aplicación se utiliza para responder a consultas de los clientes, prevenir delitos que se hacen en línea y contra el fraude virtual, indexación de banco de datos, filtrar información no importante, filtrar spam, etc.

Programa analítico

Introducción

Presentación del curso. Conceptos básicos, aplicaciones y limitaciones del Procesamiento del Lenguaje Natural

Conceptos de Machine Learning y de Procesamiento de Lenguaje Natural, y cómo trabajan en conjunto.

Construcción de un Corpus

Construcción de un corpus a partir de archivos locales.

Manipulación de texto con Pandas.

Introducción al Web Scraping. Uso de la librería Beautiful Soup.

Introducción a la descarga de archivos a través de APIs.

Preparación de los datos

Escritura y aplicación de expresiones regulares. 

Introducción a la librería NLTK (Natural Language Toolkit) para preprocesamiento y normalización de textos. 

Tokenización, Stemming y Lematización.

Eliminación de stopwords.

Modelos de N-gramas de palabras y caracteres.

Algoritmos básicos de parsing en la librería SpaCy.

Análisis no supervisado

¿En qué consiste la Clasificación de Textos?

Modelo vectorial de texto.

Construcción de la matriz de palabras por documentos.

Modelos de bolsa de palabras.

Construcción de la matriz de frecuencias por documentos.

Visualización de los resultados y construcción de nube de palabras.

Aplicación de k-means a la clasificación de documentos.

Optimización de la cantidad de clusters.

Caso de uso de clasificación de textos.

Análisis supervisado

Árboles de decisión aplicación a la clasificación de documentos.

Bayes ingenuo aplicación a la clasificación de documentos.

Regresión logística aplicación a la clasificación de documentos.

Máquinas de soporte vectorial aplicación a la clasificación de documentos.

Análisis de sentimientos.

Caso de uso de análisis de sentimientos

Pre-requisitos

Se sugiere haber cursado la diplomatura en Python orientado a la ciencia de datos o poseer experiencia y conocimientos equivalentes

Recursos ofrecidos

  • Clases teóricas en vivo: 1 x semana
  • Clases prácticas en vivo: 1 x semana
  • Material teórico para estudiar
  • Ejercicios resueltos
  • Corrección de ejercicios
  • Autoevaluaciones

Bibliografía

Bird, Steven, Ewan Klein y Edward Loper (2009). Natural language processing with Python: analyzing text with the natural language toolkit. California: O’Reilly Media.

Clark, Alexander (2003, March). Pre-processing very noisy text. In Proc. of Workshop on Shallow Processing of Large Corpora (pp. 12-22).

Clark, Eleanor y Kenji Araki (2011). Text normalization in social media: progress, problems and applications for a pre-processing system of casual English. Procedia-Social and Behavioral Sciences, 27, 2-11.

Downey, Allen (2012). Think Python. Massachusetts: Green Tea Press.

Jurafsky, Daniel y Christopher Martin (2000) Capítulo 2 “Regular expressions and automata”. Speech and language processing. New Jersey: Prentice-Hall, 21-56.

Manning, Christopher y Hinrich Schütze (1999). Foundations of Statistical Natural Language Processing. Cambridge/Massachusetts: The MIT Press.

Moreno Sandoval, Antonio (1998). Introducción a la lingüística computacional. Introducción a los modelos simbólicos, estadísticos y biológicos. Madrid: Síntesis.

Russell, Stuart J. y Peter Norvig (1995). Capítulo 23: “Practical Natural Language Processing”. Artificial Intelligence: a modern approach. New Jersey: Prentice Hall.

Watt, Andrew (2005). Beginning Regular Expressions. Indianapolis: Wiley Publishing.

Equipo docente