top of page
Mármol blanco

Caja de herramientas: taller de análisis y minería de textos con R

Ponemos a disposición el taller brindado por el Sociólogo y Científico de Datos Hernán Escudero, entre los meses de octubre y diciembre de 2019. La experiencia pedagógica fue impulsada desde el NIS, certificada por los Colegios Profesionales de Sociología de CABA y Buenos Aires, y hoy se encuentra abierta al alcance de todxs.



Presentación del curso


En la actualidad, el análisis de grandes volúmenes de datos para convertirlos en información es una tarea que abarca profesionales de múltiples disciplinas. En el caso de la sociología, una de las tareas donde se muestra un mayor potencial es el análisis de textos: desde documentos levantados de internet (ya sea medios de comunicación, Twitter, etc.) hasta desgrabaciones de entrevistas, entre otros.


En el terreno del machine learning, esto entra dentro de la subrama del Natural Language Processing (NLP, procesamiento de lenguaje natural), donde se pueden aplicar distintas técnicas a un cuerpo de documentos para encontrar similitudes, diferencias o inclusive relaciones que no son tan sencillas de encontrar con el mero ojo humano, de forma tal de armar grupos en base a la probabilidad de pertenencia a un determinado grupo. Se propone además el uso de algoritmos de sentiment analysis (análisis de sentimientos) y el uso de lexicones (SDAL) para un mayor análisis del contenido.


El dictado y apertura de este curso promueve una primera inmersión en la programación analítica/interpretativa para generar un puente de conocimiento entre nuestras profesionalidades de cientistas sociales y las nuevas tecnologías de investigación disponibles.


Dificultad: Este taller de tres clases está destinado a un público con un entendimiento básico-intermedio de R,se da por sentado que lxs alumnxs tienen un manejo del paquete Tidyverse (dplyr, ggplot2, etc.).


Programa de la cursada


Clase 1

Introducción al text mining. Tokenización: unigramas, bigramas, ngramas. El método “tweet” o “word”. Introducción básica a expresiones regulares (regex). Conteo de ocurrencias.


Clase 2

Sentiment analysis: algoritmo NRC, y lexicón SDAL. Abordaje múltiple y polar (NRC), gradientes (SDAL). Preparación de gráficos de barras y lollipops. Uso básico de R Markdown y knitting para la presentación de reportes.


Clase 3

Topic modeling: algoritmo Latent Dirichlet Allocation (LDA). Técnicas de clusterización, selección de tópicos y cantidades. Múltiples documentos (tweets) o únicos (entrevistas). Pruebas de consistencia. Matrices gamma (pertenencia de documento a cluster) y beta (pertenencia de palabra a clúster).


1 visualización0 comentarios

Comments


bottom of page