R incluye mucha funcionalidad para hacer la manipulación de datos más sencilla y es imposible ni siquiera dar una panorámica de todas las herramientas disponibles. Sin embargo, la mayor parte de las cosas que haremos durante los próximos días caerán en tres categorías: agrupar datos, fusionar dato y restructurar datos. Además, las tres categorías resumen bien el modo en el que R opera en análisis más prácticos.

Split-apply-combine

Consideremos la base de dato de impuestos al tabaco. Los datos estaban agrupados por año y estado y teníamos información sobre la carga impositiva al tabaco y la renta de cada estado. Imaginemos que estamos interesados en la carga impositiva media para cada año con el objetivo de ver cómo evoluciona en el tiempo. La estructura del problema es algo que veremos en muchas ocasiones a lo largo de estos días. Queremos dividir los datos por grupos definidos por años, calcular la media para cada uno de esos grupos, y después juntar los grupos de nuevo para tener una base de datos. Veremos por encima tres formas de conseguir ese objetivo.

tobacco <- read.csv("http://koaning.io/theme/data/cigarette.csv")

Empezaremos por funciones que vienen en el paquete base de R porque ilustran bien el proceso que las otras dos aproximaciones intentan simplificar. Esto es lo que queremos hacer, paso por paso

head(tobacco)
mean(tobacco$tax[tobacco$year == 1985])
mean(tobacco$tax[tobacco$year == 1986])
mean(tobacco$tax[tobacco$year == 1987])

Ahora que sabemos hacer bucles, podemos pensar en la siguiente forma de aproximar el problema

for (i in 1985:1990) {
    print(mean(tobacco$tax[tobacco$year == i]))
}

y podríamos añadir más información para saber a qué año se corresponde cada media

for (i in 1985:1990) {
    print(cbind(i, mean(tobacco$tax[tobacco$year == i])))
}

e incluso almacenar la información

output <- data.frame("year"=unique(tobacco$year), "ave"=NA)
for (i in 1:nrow(output)) {
    output$ave[i] <-  mean(tobacco$tax[tobacco$year == output$year[i]])
}

Aunque el proceso es intuitivo, necesitamos poner cierto esfuerzo para interpretar el código. Una forma diferente de atacar el problema es siendo más directo. En lugar de hacer un bucle, indicaremos a R cómo hacer la partición.

split_tobacco <- split(tobacco$tax, tobacco$year)
head(split_tobacco)

y a continuación aplicaremos una media sobre cada uno de los elementos.

mean_tobacco <- lapply(split_tobacco, mean)
head(mean_tobacco)

y por último juntamos los elementos de nuevo usando la función do.call que nos pide que indiquemos cómo hemos de realizar el pegado:

do.call(rbind, mean_tobacco)

Esta es la esencia de la estrategia de dividir (usando split), aplicar (usando lapply) y combinar (usando do.call).

Podemos conseguir lo mismo de otros dos modos usando dos paquetes muy populares en R. Una opción sería usar el paquete plyr que ofrece una interfaz común, clara e intuitiva para operaciones que tienen todas la misma naturaleza.

El uso es muy similar. El primer argumento indica los datos que queremos particionar, el segundo la variable que usaremos para particionar (aunque quizás no es necesario, como veremos enseguida) y el tercero la operación que queremos realizar. Un par de ejemplos serán de utilidad. Empezaremos por instalar el paquete plyr que no viene por defecto:

install.packages("plyr"); library(plyr)

y ahora

group_means <- ddply(tobacco, .(year), function(x) mean(x$tax))
head(group_means)

El nombre de la función ddply nos da mucha información sobre qué es lo que está ocurriendo. La primera letra d nos dice que el input será un data.frame, la segunda letra d que el output es otro data.frame. Todas las funciones en plyr tienen la misma estructura. Por ejemplo, podríamos calcular la media por grupos y devolver el resultado como una lista cambiando la segunda letra de d a l.

head(dlply(tobacco, .(year), function(x) mean(x$tax)))

o podríamos haber hecho los cálculos usando la lista que creamos más arriba cuando demostrábamos split. En este caso, el input es una lista, por lo que la primera letra de la función será l y no necesitamos especificar la variable de agrupación ya que los datos ya están agrupados (lo cual debería ayudarnos a entender que plyr, igual que en el proceso manual, usa una lista como pivote):

ldply(split_tobacco, mean)

El tercer método es similar a plyr pero es un conjunto de funciones que están especializadas en ddply, esto es, funciones que toman y devuelven un data.frame. La sintaxis es un poco diferente a lo que hemos visto hasta ahora pero está convirtiéndose en muy popular, así que es importante no perder este paquete de vista. Empezaremos por instalar y cargar el paquete:

install.packages("dplyr"); library(dplyr)

El paquete funciona mediante verbos encadenados con operadores (%>%) que concatenan operaciones y tienen una enorme similitud a SQL. Por ejemplo, lo que queremos hacer es agrupar los datos por year y después resumirlos para la variable tax. Aquí enfatizo resumir por oposición a mutar en el sentido de que el resultado es un resumen y no una transformación de la columna: cada grupo de observaciones será resumido en un único valor: la media.

tobacco %>%
    group_by(year) %>%
    summarize(ave=mean(tax))

¿Qué pasaría si cambiasemos el verbo summarize por el verbo mutar?

mtobacco <- tobacco %>%
    group_by(year) %>%
    mutate(ave=mean(tax))
head(mtobacco)

En este caso, lo que estamos pidiendo es una mutación de la base de datos original, de tal forma que cada entrada tiene asociada la media de la variable tax para su año correspondiente.

Una cosa a enfatizar es la generalidad de este tipo de aproximación. Muchas operaciones, no solo el cálculo de medidas resumen, se pueden concebir como parte de split-apply-combine. Pensemos, por ejemplo, en cómo el consumo de tabaco cambiá en relación a los impuestos para cada año. Una aproximación, no la mejor, sería hacer una regresión separada entre consumo e impuestos para cada año. Para ver el efecto, solo queremos ver los coeficientes:

lm_models <- dlply(tobacco, ~ year, function(x) lm(packpc ~ log(tax), data=x))
lm_coefs <- ldply(lm_models, coefficients)
lm_coefs

Hay dos cosas a tener en cuenta aquí. En primer lugar que estamos transformando un data.frame en una lista (dlply) y después la lista resultante en otro data.frame (ldply). Verifica que entiendes por qué hacemos esto. La otra cosa a tener en cuenta es que hemos generado una función anónima para calcular cada regresión. El argumento que necesitamos para especificar qué hacer en cada grupo es una función que toma un único parámetro, en este caso la base de datos correspodiente a ese año. Como es una función concreta que solo necesitamos para una única tarea, no nos molestamos ni siquiera en darle un nombre.

Fusionar dos bases de datos

Por ahora hemos trabajado con un único data.frame que vive en memoria. Sin embargo, en muchas ocasiones (bien por que los datos vienen en estructuras diferentes o por que generamos bases separadas en el transcurso de nuestras operaciones) necesitaremos fusionar bases de datos que contienen una llave común. Pensemos en un ejemplo trivial en el que queremos tomar los coeficientes que acabamos de estimar y los queremos juntar de nuevo en nuestra base de datos original.

merged_tobacco <- merge(tobacco, lm_coefs, by="year")
head(merged_tobacco)

La función merge toma otros argumentos que nos permiten especificar diferentes clases de join, qué hacer con las unidades que no existen en las dos bases de datos (¿las incluimos o las dejamos?), o qué hacer con variables que existen en las dos bases de datos.

Restructurar un base de datos

Una operación que haremos mucho a lo largo de los dos siguientes días será restructurar el formato de nuestra base de datos. Por ejemplo, ahora nuestra base de datos sobre consumo de tabaco está estructurada por pares estado-año.

head(tobacco)

Cada fila representa un año en un determinado estado. Sin embargo, podemos querer cambiar el formato de tal forma que cada fila represente datos para un determinado año. Por supuesto, y como siempre, existen modos de hacer esto usando las librerías base en R, pero creo que el paquete reshape2 nos ofrece una vía más directa e intuitiva. Las operaciones aquí se dividen en dos funciones: una operación derrite (melts) la base de datos de acuerdo con algunas variables que hagan de índice. La segunda funde (casts) en la estructura que nosotros queramos. Por ejemplo, para el problema anterior podemos hacer:

library(reshape2)
molten_tobacco <- melt(tobacco[, c("state", "year", "tax")], id=c("state", "year"))
head(molten_tobacco)
tail(molten_tobacco)
head(dcast(molten_tobacco, state ~ variable + year))

Vayamos paso por paso en lo que ha pasado antes. En primer lugar, hemos tomado únicamente tres variables de la base de datos y hemos pedido a R que la transforme de tal manera que state e year permanezcan como índices en las filas. En este caso, lo único que estamos haciendo es añadir dos nuevas variables variable y value que capturan las variables y valores que no son id. Si hacemos melt sin seleccionar variables lo podemos ver con más claridad

head(melt(tobacco, id=c("state", "year")))
tail(melt(tobacco, id=c("state", "year")))

Aquí vemos con claridad que todas las variables han sido transformadas para que aparezcan en una única columna con su nombre y su valor. La siguiente fase es cast que nos permite, usando una fórmula, indicar qué variables van a permanecer en las filas y cuáles en las columnas. En este caso, la izquierda del símbolo ~ representa las filas y la derecha las columnas.

Así, por ejemplo, en el caso anterior lo que queríamos era pivotar la variable tax a las columnas y añadir a esta el valor de año, mientras que en las filas permanece la variable state

head(dcast(molten_tobacco, state ~ variable + year))
