El análisis de temas en minería de texto, como hemos visto, es un caso particular del aprendizaje no-supervisado en el que queremos agrupar documentos de acuerdo con la frecuencia de términos que contienen.

library(stringdist)
library(tm)
library(stringi)

Empezaremos leyendo el listado de archivos que contienen las notas de prensa. Recordemos que cada nota está en un documento de texto separado bajo una carpeta que lleva el nombre del senador.

allfiles <- list.files("./dta/senate-releases", full.names=TRUE, recursive=TRUE)
head(allfiles)

Usando expresiones regulares, podemos extraer del nombre del archivo toda la información que necesitamos sobre el autor, la fecha y, además, tener un identificador de cada documento.

extraer_metadatos <- function(x) {
    str <- ".*/([a-zA-Z]{1,})/([0-9]{1,2}[a-zA-Z]{3}[0-9]{4}).*([0-9]{1,3}).txt$"
    nombre <- gsub(str, "\\1", x)
    fecha <- gsub(str, "\\2", x)
    narchivo <- gsub(str, "\\3", x)
    return(data.frame("nombre"=nombre,
                      "fecha"=strptime(fecha, "%d%b%Y"),
                      "narchivo"=narchivo))
}

Tomaremos una muestra aleatoria simple de documentos para los siguientes análisis.

allfiles <- sample(allfiles, 1000) ## Sampling!
metadatos <- extraer_metadatos(allfiles)
head(metadatos)

Ahora podemos leer los documentos en nuestra sesión

alltexts <- lapply(allfiles, function(x) readLines(x, encoding="ISO-8859"))
head(alltexts[[1]])

Antes de poder trabajar con estos documentos, tenemos que procesarlos. Los pasos son bastante habituales en practicamente todas los analisis de minería de textos. Empezaremos por asegurarnos de que cada documento está contenido en un vector

alltexts <- lapply(alltexts, function(x) paste(x, collapse="\n"))
substring(alltexts[[1]], 1, 100)

Aunque los textos están en inglés, es posible que algunos términos, por ejemplo, nombres propios, contengan acentos. La mejor solución para nosotros es transliterar los documentos a ASCII.

alltexts <- lapply(alltexts, function(x) stri_trans_general(x, "latin-ascii"))

También convertiremos todas las palabras a minúscula:

alltexts <- lapply(alltexts, tolower)

y eliminaremos puntuación, dígitos, espacios, y símbolos de dolar.

alltexts <- lapply(alltexts, function(x) stri_replace_all_regex(x, "[[:punct:]]", " "))
alltexts <- lapply(alltexts, function(x) stri_replace_all_regex(x, "[[:digit:]]", " "))
alltexts <- lapply(alltexts, function(x) stri_replace_all_regex(x, "[[:space:]]", " "))
alltexts <- lapply(alltexts, function(x) stri_replace_all_regex(x, "\\$", ""))
substring(alltexts[[1]], 1, 100)

Para las operaciones de limpieza que nos quedan, es conveniente echar mano del paquete tm que implementa versiones eficientes de funciones como las que hemos usado pero para trabajar sobre documentos de texto.

docs <- Corpus(VectorSource(alltexts))

Empezaremos por quitar palabras vacías. tm contiene una lista que podemos usar para una primera pasada.

docs <- tm_map(docs, removeWords, stopwords("english"))

En muchas ocasiones, y dependiendo del tema de los documentos, querremos definir nuestra propia lista de palabras a eliminar. Esto lo podemos usar cambiando el nargumento que pasamos a removeWords con un vector de palabras:

otras_stopwords <- c("can", "say", "one", "way", "use", "also", "howev", "tell",
                     "will", "much", "need", "take", "tend", "even", "like",
                     "particular", "rather", "said", "get", "well", "make",
                     "ask", "come", "end", "first", "two", "help", "often",
                     "may", "might", "see", "someth", "thing", "point", "post",
                     "look", "right", "now", "think", "‘ve ", "‘re ", "anoth",
                     "put", "set", "new", "good", "want", "sure", "kind",
                     "larg", "yes, ", "day", "etc", "quit", "sinc", "attempt",
                     "lack", "seen", "awar", "littl", "ever", "moreov",
                     "though", "found", "abl", "enough", "far", "earli", "away",
                     "achiev", "draw", "last", "never", "brief", "bit", "entir",
                     "brief", "great", "lot")
docs <- tm_map(docs, removeWords, otras_stopwords)

Por último, eliminaremos los espacios en blanco sobrantes. Aunque es sencillo escribir una expresión regular, podemos utilizar en su lugar tm otra vez:

docs <- tm_map(docs, stripWhitespace)
docs[[21]]$content

Lo que nos interesa es cómo los términos se agrupan en documentos. Variaciones de los términos a través de sufijos son en este caso un problema. Por ejemplo, en textos referidos a educación, no queremos que nuestro modelo intente capturar diferencias entre educación, educativa, educado, … Nuestro intento de clasificar documentos funcionará mejor si reducimos todas estas palabras a una raíz común, como educ. Este proceso se denomina stemming y tm implementa varios algoritmos que funcionan bien en inglés.

docs <- tm_map(docs, stemDocument)
docs[[21]]$content

Esta colección de documentos podemos, ahora sí, usarla para nuestros análisis. Pero antes de eso, tenemos que convertirla a una matriz de términos.

dtm <- DocumentTermMatrix(docs,
                          control=list(wordLengths=c(2, Inf),
                                       sparse=TRUE))
inspect(dtm[1:5, 1:5])

En esta matriz hemos eliminado palabras muy cortas, de menos de dos caracteres. Además, también queremos eliminar palabras muy poco frecuentes (palabras que son sparse en un 95% de los documentos o, dicho de otra forma, que solo aparezcan en un 5% de documentos). Con eso conseguiremos que la matriz no sea tan sparse.

dtm <- removeSparseTerms(dtm , 0.95)
findFreqTerms(dtm, 1000) ## palabras que aparecen 1000 veces

Con el fin de poder referirnos a los documentos que originan cada término, pondremos los nombres de los archivos como nombres de las filas de la base de datos.

rownames(dtm) <- gsub(".*/([0-9]*.*).txt$", "\\1", allfiles)
saveRDS(dtm, "./dta/dtm.RDS")
