Empecemos por cargar de nuevo los datos
library(igraph)
edgelist <- readRDS("dta/edgelist-diputados.RDS")
atributos <- readRDS("dta/atributos-diputados.RDS")
La lista de aristas que hemos creado antes se puede convertir en una red en igraph
utilizando la función graph_from_edgelist
.
g <- graph_from_edgelist(edgelist, directed=FALSE)
print(g)
Exploremos ahora la red que acabamos de crear. Por ejemplo, podemos ver la red del diputado 22
.
plot(make_ego_graph(g, nodes="22", order=1)[[1]])
Lo que vemos es que nuestra red contiene muchas aristas redundantes. Para cada iniciativa, hemos definido una arista de colaboración, pero lo cierto es que lo que nos interesa es si dos diputados han colaborado alguna vez. Por eso, deberíamos simplificar el conjunto de aristas que tenemos en la red:
g <- simplify(g)
plot(make_ego_graph(g, nodes="22", order=1)[[1]])
Ahora que ya tenemos la red tal y como la queremos, empecemos a explorar las redes ego de algunos diputados. Por ejemplo, podemos explorar la red alrededor de 41
.
ego41 <- make_ego_graph(g, nodes="41", order=1)[[1]]
plot(ego41)
y ver la red de segundo orden
ego41 <- make_ego_graph(g, nodes="41", order=2)[[1]]
plot(ego41)
Lo que vemos es que aunque tenga una red de primer orden con pocos diputados, su red de segundo orden es muy amplia. El diputado 41
tiene pocos amigos, pero sus amigos son muy populares. Podemos echar un vistazo a otros diputados para ver si es un patron común. Por ejemplo, el diputado 22
que ya hemos visto antes.
ego(g, nodes="22", order=1)
ego(g, nodes="22", order=2)
A diferencia de 41
, 22
tiene una red de segundo orden que es casi igual a su red de primer orden. Sus amigos apenas tienen amigos que no sean 22
mismo. La diferencia entre 41
y 22
es crucial y nos habla de dos tipos diferentes de relaciones. 22
pertenece a una comunidad casi cerrada, mientras que 41
parece un elemento de gran importancia dentro de las conexiones de la red.
Veamos ahora cómo capturar este tipo de información de manera más general. Podemos, por ejemplo, empezar con un modo de contar el número de conexiones que tiene cada individuo en la red.
degdip <- degree(g)
y podemos ver que ese número coincide con el número de vértices que podemos recuperar a través de la red ego de un individuo determinado:
degdip[names(degdip) == "22"]
ego(g, nodes="22", order=1)
Y podemos tambien ver cómo se distribuye esta variable a lo largo de la red.
hist(degdip)
Lo que apreciamos es que existe un grupo de usuarios muy densamente conectados y una mayoría que tiene un número de conexiones mucho menor.
Este concepto de “conectividad” lo podemos capturar un poco mejor a través de la transitividad de cada nodo.
trdip <- transitivity(g, "local")
Veamos los datos aplicados a nuestro ejemplo de antes
trdip[names(degdip) == "22"] ## Alta densidad
plot(make_ego_graph(g, nodes="22", order=2)[[1]])
Lo que podemos apreciar es que la red alrededor de 22
está muy densamente conectada: los amigos de los amigos de 22
casi siempre amigos de 22
.
Podemos contrastar esta situación con el diputado 186
.
trdip[names(degdip) == "186"]
plot(make_ego_graph(g, nodes="186", order=1)[[1]]) ## Densa en primer grado
plot(make_ego_graph(g, nodes="186", order=2)[[1]]) ## No densa en segundo
En este caso, vemos que su red de primer orden también es muy densa, pero sin embargo es poco probable que el amigo de un amigo de 186
sea amigo de 186
.
¿Qué tipo de relación es más frecuente en la red? Para eso podemos pedir la transitividad global de la red
transitivity(g, "global")
Otra medida interesante es la distancia media entre dos nodos cualesquiera.
mean_distance(g)
Pero ya hemos visto que esta información puede ser poco informativa si existen grandes desigualdades en las conexiones de diferentes nodos, tal y como es el caso. Por eso quizás sea más útil ver la tabla completa de distancias. La tabla nos da el número de pares que están a una determinada distancia.
distance_table(g)
El máximo de ese vector es el diámetro de la red.
diameter(g)
Otra forma de atacar el problema es midiendo la distancia más corta entre dos vértices.
shortest_paths(g, "187", "171")
aunque por supuesto esta es una tarea que no querríamos hacer para cada par de nodos.
En su lugar, podemos mirar a las medidas de centralidad. Las tres medidas más frecuentes son la intermediación y la distancia en autovector, muy próxima a al Page rank. Es importante importante recordar que estas medidas capturan diferentes nociones de centralidad, tal y como hemos visto antes.
bc <- betweenness(g)
head(bc)
ec <- eigen_centrality(g)$vector
head(ec)
pg <- page_rank(g)$vector
head(pg)
Pero podemos verlo de forma más práctica si miramos a la centralidad de los dos diputados que hemos estudiado antes
bc[names(bc) == "22"]
bc[names(bc) == "186"]
Esto nos viene a confirmar que, quizás precisamente porque la red de 22
está muy conectada entre ella, la centralidad de 22
es en realidad muy baja. Por el contrario, 186
tiene una enorme centralidad precisamente porque su red se exiende muy rápido, a pesar de que tiene pocos amigos.
Sin embargo, las dos medidas están muy poco relacionadas:
plot(bc, ec)
¿Cómo es eso posible? Investiguemos un caso en el que las dos medidas nos dan diferentes interpretaciones:
names(bc[bc < 100 & ec > .8])
plot(make_ego_graph(g, nodes="176", order=1)[[1]])
y veamos cómo es su red ego:
ego(g, nodes="176", order=1)
ego(g, nodes="176", order=2)
ego(g, nodes="176", order=3)
¿Cómo interpretamos esto?
Detección de comunidades
Una forma de aproximarnos a la paradoja anterior es a través de la noción de comunidades. igraph
ofrece varias formas de calcular las comunidades que existen en nuestro grafo. Como hemos visto, existen varias alternativas para aproximarnos a este concepto. Una de ellas, el método de Newman-Girvan, elimina enlaces según su grado de centralidad de intermediación.
cl_ng <- cluster_edge_betweenness(g)
cl_ng
Podemos visualizar las comunidades de forma muy sencilla
plot(cl_ng, g)
Otra alternativa muy popular usa el método de Lovaina.
cl_lov <- cluster_louvain(g)
cl_lov
member <- membership(cl_lov)
head(member)
Podemos echar un vistazo a la distribución de los miembros de cada una de las comunidades que hemos estimado
table(member)
y podemos comparar los resultados de uno y otro método
table(member, membership(cl_ng))
Aunque haya algunas diferencias, mantienen una enorme similitud entre los dos.
Pero miremos a ver si entendemos cuál es la lógica de estas comunidades. Para eso echaremos mano de la base de datos de atributos que creamos antes.
louvain <- data.frame("comunidad"=as.vector(member),
"id"=attr(member, "names"))
comunidad <- merge(atributos, louvain)
Ahora, veamos qué ocurre si tabulamos cada una de las comunidades con el partido al que pertenece cada uno de los miembros:
sapply(split(comunidad, list(comunidad$comunidad)), function(x) table(x$grupo))
Los resultados que hemos visto hasta ahora deberían tener mucho más sentido.
