¿Era posible predecir las europeas?
06 July 2014

Argumentaba Manuel Bagues en Nada es gratis que el CIS cambió su método de hacer predicción electoral recientemente, y usaba para ello el incremento en la proporción relativa de indecisos asignados a PP o PSOE desde enero de 2012. Con ello, daba pábulo a una línea de críticas que sugiere que la opacidad en las operaciones del CIS permite sesgos partidistas que no serían posibles si hubiese un compromiso de que los métodos del Departamento de Investigación fuesen reproducibles. El post es fascinante (conf. Alberto Penadés en Piedras de Papel), pero el argumento final descansa sobre el supuesto de que la asignación de voto para los indecisos no se corresponde con la distribución esperada condicional a la información contenida en la matriz de datos.1 Obviamente, que los resultados observados fuesen muy distintos de los predichos no es condición suficiente para hablar de un modelo predictivo erróneo (mucho menos de manipulación), ya que la intención de voto latente en el momento de la encuesta y el comportamiento el día de las elecciones pueden diferir.2 Más aún, incluso aunque la discrepancia entre predicciones y resultados reales no fuese causada por un gran vuelco en la intención de voto durante la campaña, el hecho de estar presenciando varios factores imprevisibles harían muy difícil la predicción incluso aunque dispusiésemos de un modelo estructural –del cual estamos todavía muy lejos.

Parece que el ejercicio más directo para comprobar si las predicciones del CIS estaban sesgadas a favor de los dos grandes partidos consiste en predecir la intención de voto para los indecisos a partir del voto observado registrado en, por ejemplo, la pre-electoral de las elecciones europeas de mayo (estudio 3022). Con ello podemos contrastar si los pronósticos del CIS iban desencaminados o no, con todo lo que ello implica. Hay varios factores que limitan la validez final del este tipo de experimento. Primero, el que, por simplicidad, he tomado como válida la intención directa de participación, a pesar de saber que no se corresponde con la real. Segundo, los microdatos del CIS distan de aportar las condiciones óptimas para un modelo predictivo dado el pequeñísimo número de ejemplos de los que podemos aprender (4737 observaciones). Además, o precisamente por ello, muchas de las categorías (partidos) contienen muy pocos ejemplos, así que no hay muchas esperanzas de acercarse a una correcta predicción out-of-sample para ellas. En un escenario más realista (por ejemplo, si mi trabajo fuese construir la predicciones del CIS), el modelo impondría priors informativas en la intención individual de voto, extraídas de modelos ajustados a datos anteriores. También es posible que ni siquiera intentase predecir más que las categorías más pobladas.

Con todas las precauciones anteriores, he arrojado los datos contra un random forest elemental. El ajuste en el testing dataset es pobre globalmente (73.4% de ajuste en el training dataset) y tiene dificultad para ajustar a quienes han decidido no votar (nada sorprendente), pero es razonable si nos ceñimos a PP y PSOE, tal y como cabría esperar (86.6% y 85.3%).3 Aunque solo le he dedicado apenas 5 minutos a probar diferentes predictores, es difícil aspirar a mucho más con este tipo de datos (el código de replicación está aquí).

Las predicciones que resultan del modelo son 28% para el PP (33.7% según el CIS, 26% real) y 30.2% para el PSOE (31% según el CIS, 23% real). Podemos, la gran sorpresa, apenas supera el 1% (1.8 según el CIS, 8% real).

Mi impresión es que mi modelo, con todos sus problemas, incluyendo el hecho de que le otorga la victoria al PSOE, sobreestima el voto a los dos grandes partidos igual que lo hizo CIS, y lo hace además en línea con el resto de las encuestas pre-electorales. Eso sugiere que el problema seguramente no estaba en el método de predicción del CIS, si no que, había elementos en la muestra para justificar una estimación que resultó ser incorrecta y todavía muy positiva para el bipartidismo. Esto por supuesto no excusa al CIS, ya que dispone de más recursos, incluyendo la posibilidad de diseñar un cuestionario mejor adaptado para captar el voto de protesta típico de las elecciones de segundo orden, pero arroja dudas sobre si realmente era posible dar predicciones diferentes a las finalmente publicadas.

  1. Por lo que sé, la estimación de CIS consiste en estimar participación y asignar voto a indecisos, sin modificar voto declarado. Parece obvio que esta es una estrategia bastante restrictiva, en la medida en la que asume que quienes han declarado su voto 1. lo han hecho verazmente o 2. no lo cambiarán antes de las elecciones. Sin embargo, sin un modelo claro de predicción de voto, cualquier otra estrategia sería, con buena razón, sospechosa. 

  2. Si bien no acabo de entender que el CIS haga predicción electoral, asumiendo que la haga, prefiero que estime intención de voto más que comportamiento esperado. 

  3. Las etiquetas en la tabla se corresponden con los valores asignados a cada partido en el codebook.