itle: “Un ejemplo de captura de datos” |
ate: “July 24, 2019” |
Para crear nuestro primer análisis de redes real, usaremos datos de las redes de colaboración en el Congreso de los Diputados de España. Esto nos servirá para ver en la práctica el tipo de decisiones que tenemos que tomar a la hora de construir la red.
library(jsonlite)
library(httr)
Podemos empezar por extraer los datos de la lista de diputados
URL <- 'http://api.quehacenlosdiputados.net/diputados'
diputados <- GET(URL)
diputados <- content(diputados, as="text")
diputados <- fromJSON(diputados, simplifyVector=FALSE)
A continuación tomamos la lista de diputados y extraeremos su identificador único.
list_diputados <- lapply(diputados, function(x) x$id)
Recordemos que lo que nos interesa es capturar las leyes en las que cada diputado a trabajado y cuáles son los coautores. La información sobre las iniciativas legislativas en las que ha participado cada diputado está disponible en el endpoint iniciativas
que es hijo de la id
de cada diputado
. Por tanto, lo que haremos será crear una función que, para cada id
recoja la información sobre las iniciativas asociadas a ese candidato.
get_iniciativas <- function(x) {
url <- sprintf("http://api.quehacenlosdiputados.net/diputado/%s/iniciativas", x)
dip_data <- GET(url)
## Estamos haciendo una recogida muy breve de datos
## En recogidas mas grandes querremos
## 1. verificar que el contenido no es vacio (status == 200)
## 2. Guardar en disco a medida que capturamos datos
## 3. Tomar acciones si recibimos error o si falla la conexion
out <- fromJSON(content(dip_data, as="text"), simplifyVector=FALSE)
return(out)
}
Ahora, crearemos un espacio para poder almacenar estos datos. Lo haremos en una lista, así que podemos aprovechar los nombres de la lista para poder mantener un poco de orden en la información recogida.
collab <- vector("list", length(list_diputados))
names(collab) <- unlist(list_diputados)
head(collab)
Ahora, iremos sobre cada una de las id
que hemos recogido antes y recogeremos los datos relativos a las iniciativas de cada diputado. Para no sobrecargar el servidor, dejaremos un espacio de un segundo entre llamadas. Además, imprimiremos información a medida que la descarga vaya avanzando para asegurarnos de que no hay ningún problema:
for (i in names(collab)) {
remaining <- length(collab) - which(names(collab) == i)
print(sprintf("Capturando los datos de id=%s. Faltan %s llamadas", i, remaining))
collab[[i]] <- get_iniciativas(i)
## Sys.sleep(1)
}
En la lista collab
tenemos mucha información, pero podemos hacer un poco de limpieza para generar una base de datos. Para eso, crearemos una pequeña función que, para cada diputado, tome los datos que queremos mantener y los ponga en un data.frame
.
recuperar_atributos <- function(x) {
out <- data.frame("id"=as.numeric(x$id),
"nombre"=x$normalized$url,
"grupo"=x$grupo,
"circunscripcion"=x$circunscripcion,
"sexo"=x$sexo,
"antiguedad"=length(x$legislaturas),
"edad"=difftime(Sys.time(),
strptime(x$fecha_nac, "%d/%M/%Y"),
unit="days"))
return(out)
}
Ahora podemos recorrer la lista de diputados y extraer los atributos que nos interesan. En lugar de un loop usaremos una forma más idiomática en R
de atravesar una lista.
atributos <- lapply(diputados, recuperar_atributos)
atributos <- do.call(rbind, atributos)
atributos$id <- as.character(atributos$id)
head(atributos)
Ahora que tenemos información acerca de los diputados (los vértices de nuestra red), queremos recuperar las aristas que los unen. En esta red, dos vértices están unidos por una arista si los vértices han colaborado en una pieza de legislación.
recuperar_coautores <- function(x) {
out <- unique(unlist(lapply(x, function(y) unlist(y$autores))))
return(out)
}
Podemos aplicar la misma estrategia para crear la lista de coautores para cada diputado
autores <- lapply(collab, recuperar_coautores)
head(autores)
eliminando además a los diputados que no han participado en ninguna autoría
autores <- autores[!sapply(autores, function(x) length(x) == 0)] ## Eliminar 0 autorias
head(autores)
aunque podríamos tratarlos como islas de nuestra red.
Lo que tenemos ahora es una lista en la que para cada diputado tenemos un vector que contiene los diputados con los que ha colaborado. Lo que haremos a continuación es colapsar eso para tener una matriz.
coautores <- lapply(1:length(autores),
function(x) cbind(as.numeric(names(autores)[x]),
autores[[x]]))
edgelist <- do.call(rbind, coautores)
head(edgelist)
Un último paso de limpieza. En la matriz tal y como la tenemos ahora, tenemos bucles, es decir, tenemos listado a cada diputado colaborando consigo mismo. No es necesariamente un problema, pero no es lo que nos interesa en este análisis, así que es mejor que quitemos este tipo de observaciones
loops <- edgelist[, 1] == edgelist[, 2]
edgelist <- edgelist[!loops, ]
head(edgelist)
Finalmente, guardaremos los datos en un archivo .RDS
asegurándonos de que la lista de aristas que acabamos de crear contenga los nombres (las id numéricas) de cada diputaod.
edgelist <- apply(edgelist, 2, as.character)
saveRDS(edgelist, "dta/edgelist-diputados.RDS")
saveRDS(atributos, "dta/atributos-diputados.RDS")