Universidad Católica del Uruguay, Julio 2019

Durante los últimos años hemos sido testigos de la expansión de nuevas herramientas computacionales que han cambiado el panorama en todas las áreas de investigación social. Estas herramientas nos permiten analizar nuevos tipos de datos (archivos de texto, imágenes, o redes sociales), explotar bases de datos masivas, o enfrentar problemas de predicción con una gran precisión. Con ello, nos ofrecen la posibilidad de adentrarnos en temas de investigación que hasta ahora no eran factibles.

En este curso nos centraremos en la captura y el análisis de nuevas formas de información. Estudiaremos, por ejemplo, como obtener datos de Internet, cómo identificar a los actores más relevantes en una red social, cómo obtener información de una gran colección de archivos de texto, cómo sintetizar información cuantitativa y cómo fusionar bases de datos.

Estructura de la clase

El curso consta de 5 sesiones de 4 horas cada una. Durante la primera mitad de cada sesión cubriremos las intuiciones detrás de la teoría y en la segunda mitad aplicaremos esos conceptos a bases de datos y problemas reales.

Para poder seguir la clase, es necesario tener cierta exposición al análisis estadístico. En concreto, para aprovechar correctamente los contenidos de cada sesión deberás familiarizado con los fundamentos de la probabilidad y la estadística inferencial. Además, debes tener cierta soltura con modelos de regresión y clasificación como la regresión logística.

El lenguaje de programación R será nuestra principal herramienta de trabajo. En la primera clase repasaremos los fundamentos del lenguaje. Si no tienes experiencia previa con programación, ni siquiera con un lenguaje estadístico como Stata o SAS, probablemente querrás complementar esta clase con algunos materiales adicionales antes de la segunda sesión. Ponte en contacto conmigo y te puedo recomendar algunas lecturas.

Compartiré diariamente los materiales de cada sesión en esta página web, en la sección de materiales.

Contacto

Durante los días del curso estaré disponible para tutorías TBD. Fuera de esos horarios mantendré una política de puerta abierta. Si por cualquier motivo esas dos opciones no fuesen suficientes, ponte en contacto conmigo por correo electrónico.

Contenidos

El curso está dividido en dos partes. Los primeros tres días los dedicaremos herramientas que nos permitirán recopilar, almacenar y analizar un mayor volumen y una mayor variedad de datos. Empezaremos por familiarizarnos con R y veremos herramientas dentro del ecosistema de R que nos permitirán interactuar con bases de datos (tanto relacionales como no-relacionales) y procesar datos a escala. Esta infraestructura nos será útil para trabajar con datos digitales.

En la segunda mitad del curso veremos tres tipos de análisis estadísticos para trabajar con nuevas fuentes de datos. En concreto, veremos los fundamentos del análisis de redes sociales y algunas nociones de procesamiento de lenguaje natural y análisis de textos. En la última sesión estudiaremos la fusión de registros para combinar bases de datos que no contienen identificadores únicos.

Materiales auxiliares

  • James, G., Witten, D, Hastie, T. y Tibshirani, R. (2013): An Introduction to Statistical Learning. Springer.
  • Tilton, L. y Arnold, T. (2015): Humanities Data in R. Springer.
  • de Bruin, J. (2015): Probabilistic Record Linkage with the Fellegi and Sunter Framework. MSc Dissertation. Delft University of Technology.
  • Borgatti, S. y Everett, M. (2013): Analyzing Social Networks. SAGE Publishing.
  • Grolemund, G. y Wickham, H. (2016): R for Data Science. O’Reilly.
  • Kleppmann, M. (2018): Designing Data-Intensive Applications: The Big Ideas Behind Reliable, Scalable, and Maintainable Systems O’Reilly.
  • Christen, P. (2012): Data Matching. Concepts and Techniques for Record Linkage, Entity Resolution, and Duplicate Detection. Springer
  • Munzert, S.; Rubba, C.; Meissner, P. y Nyhuis, D. (2015): Automated Data Collection with R: A Practical Guide to Web Scraping and Text Mining. Wiley.

Créditos

El diseño de la página es una adaptación Jeffrey Arnold y Pablo Barberá.

Los materiales provienen de varias fuentes. La introducción utiliza la estructura y contenidos de Bit by Bit y The Data Revolution. Para la introducción a computación en paralelo, he seguido la exposición de Jonathan Dorsi. La sección de aprendizaje no-supervisado sigue el capítulo 10 de Introduction to Statistical Learning. La presentación de análisis de redes está basada en Analyzing Social Networks. La notación y contenidos de la discusión sobre fusión de registros viene de la tesis de máster de Jonathan de Bruin.