Demasiados descriptivos
24 May 2015

Damos demasiados datos descriptivos. Incorporar datos cuantitativos al análisis electoral en los medios generalistas ha sido un paso muy importante en la buena dirección, pero nos olvidamos con demasiada frecuencia de que los datos como descripción tienen un recorrido muy limitado. Al fin y al cabo, lo que nos interesa como analistas es extraer conclusiones, lo cual es otra forma de decir que nuestra intención última es utilizar los datos para validar o refutar una hipótesis.

Pero a veces solo queremos presentar un relato aséptico que nos permita tomar un poco de distancia con respecto a nuestra experiencia cotidiana revisando, por ejemplo, los resultados de una encuesta reciente. Es muy fácil argumentar que aspectos como la selección de resultados o incluso la codificación de variables reflejan una teoría del comportamiento político y que estaríamos mucho mejor explicitándola e investigándola activamente, pero me preocupa mucho más el hecho, cada vez más habitual, de que no tengamos en cuenta que los descriptivos de una encuesta no son los descriptivos de la población.

He dado mucho la murga sobre una nota publicada en El Español en la que se mencionaba el hecho de que los votantes de Podemos son más jóvenes y están más educados que el resto. Por supuesto, los resultados educativos son diferentes para cada generación, así que un análisis en agregado encontrará una relación entre educación y voto que no es más que una consecuencia de una relación entre educación y edad. Es decir, si los votantes de Podemos son más jóvenes también tendrán más educación en media por el mero hecho de que las generaciones anteriores no llegaban con tanta frecuencia a la Universidad1.

La pregunta realmente interesante es sobre si los jóvenes que votan a Podemos son más educados que los jóvenes que votan a otros partidos. Es posible aproximarnos a esta cuestión de varias maneras, pero la más sencilla2 es separar la muestra entre menores y mayores de 35 y estimar el efecto de la educación en ese subgrupo. Un modelo de elección binaria es suficiente.

Aquí es donde entra la teoría. Por ejemplo, podemos pensar que cada nuevo nivel educativo tiene un efecto diferente en la probabilidad de voto. En ese caso, la diferencia entre jóvenes y mayores en la probabilidad de votar a Podemos para grupo de educación tendría el siguiente aspecto.

...

También es posible imponer más restricciones en los datos y asumir que el efecto de la educación es idéntico para cada nuevo nivel superado, algo que me resulta muy poco intuitivo.

...

Más interesante podría ser enmarcar el estudio en el análisis sobre “los perdedores de la crisis” y separar el efecto de la edudación a través de una dicotomía entre insiders y outsiders, distinguiendo por ejemplo entre universitarios y el resto.

...

Como se puede ver, aunque es posible intuir que “algo ocurre en los datos” y que mayor educación aumentar el voto a Podemos, en ninguno de los tres casos podemos afirmar esa conclusión con seguridad. O mejor dicho, o bien el efecto es demasiado pequeño para el tamaño de muestra que tenemos a nuestra disposición o bien tenemos que hacer supuestos muy fuertes. Quizás sea cierto, y eso nos permitiría construir un relato muy atractivo sobre el comportamiento electoral durante la crisis, pero no tenemos suficiente información para apoyar esa hipótesis.

No quiero hacer de esta nota una discusión sobre un aspecto concreto del comportamiento político en España. Lo que quiero señalar, y no me importa ser pesado con esto, es que las medidas de incertidumbre son lo único que nos permite medir si una hipótesis es consistente con los datos. La cuestión es por tanto reconocer que practicamente todo lo que es interesante decir al revisar los datos de una encuesta es, de uno u otro modo, una hipótesis sobre algo que ocurre en la sociedad y que está destinada a contrastar una teoría más general.

  1. Un supuesto muy fuerte y claramente falso en este tipo de análisis es que los menores de 35 han terminado su ciclo educativo. 

  2. No la más adecuada, todo debe decirse, pero es suficiente para construir mi argumento.