¿Dónde están realmente los partidos?
19 April 2014

Si hay algo que me resulta llamativo en los análisis de opinión pública con datos de encuesta, es el hecho de que parecemos esforzarnos en ignorar que los entrevistados mienten1. Con esto no me refiero a alguna clase de desconfianza patológica sobre las encuestas como fuente de datos para la investigación social; hablo de las dudas más que documentadas en la literatura profesional sobre el proceso de generación de respuestas en encuestas. Sea por el mecanismo que fuere, los entrevistados a veces no quieren o no pueden proveernos de información veraz. Si somos afortunados, los entrevistados que no quieren o no pueden cooperar con nosotros no dirán nada y registraremos una caso incompleto; si no, generarán una observación anómala en la base de datos con la que deberíamos que lidiar.

Pensemos ahora en la práctica habitual. Podría apostar a que el árbol de decisión al que recurrimos durante la limpieza de los datos solo contempla una intervención activa sobre estas anomalías si un dato viola alguna condición lógica (cosas como una edad fuera del rango permisible). Es bueno pecar de conservador al usar datos sociales individuales y no hacer demasiados supuestos sobre qué pasa por la cabeza de los entrevistados, pero eso no puede interponerse en el objetivo final que es medir una opinión cuando tenemos sospechas razonables sobre la veracidad de la información que estamos usando.

Esta digresión tiene más sentido con un ejemplo práctico. Tomemos la base de datos que usé en este post. En el gráfico se representan las localizaciones en el espacio (ideología, nacionalismo) asignadas por los votantes a los cuatro mayores partidos en las elecciones de 2012 en Galicia.2

Image

Centrémonos en los puntos azules, que representan al PP y pensemos en un análisis en el que deseamos recuperar, a partir de las respuestas de toda la muestra, la posición política del partido en los dos ejes. La mayoría de los entrevistados localizan al partido como de derechas y poco o nada nacionalista. Nada sorprendente ahí. Sin embargo, hay respuestas de todo tipo, incluyendo un grupo nada despreciable de individuos que sitúan al partido en la izquierda o con el mismo grado de nacionalismo que, digamos, BNG o AGE. Ante esto caben dos actitudes. La primera es aceptar que estas anomalías son consustanciales a los datos, ¿o acaso vamos a ignorar el coste cognitivo implicado en el proceso de localizar un partido en la dimensión ideológica?

¿Y cómo gestionamos entonces el hecho de que haya individuos que hayan localizado al PP en la extrema izquierda o al BNG en la extrema derecha? ¿Debemos simplemente asumir que se trata de un caso extremo de desinformación? ¿Cómo de razonable es aceptar que estas observaciones deban contribuir a la incertidumbre de nuestra estimación sobre dónde se localiza el PP? Yo me inclino a pensar que lo más razonable es considerar estos casos como ruido en sentido estricto. Esto es, creo que lo adecuado para esta pregunta de investigación es tomarlos como casos que ocultan la señal generada por individuos que son capaces de reconocer con cierta coherencia la estructura de la arena política. Al fin y al cabo, sea escaso conocimiento o simple falta de cooperación por parte del entrevistado, estas observaciones entorpecen nuestro objetivo inicial que es saber dónde se encuentra el partido y no si los individuos menos informados tienen más dificultades para localizarlo.

Asumamos por un momento que mi argumento es convincente y que queremos separar observaciones de ruido. Lo que no es razonable es dejar en manos del investigador la tarea de filtrar estas anomalías sin más guía que el hecho de que se encuentran lejos del grueso de las observaciones. O quizás sí. Al fin y al cabo, ha sido eso lo que nos ha alertado en primer lugar. Eliminar casos de la base de datos porque resultan sospechosos es aceptable solo si tenemos una razón muy sólida para ello, y una manipulación directa de los datos basada en una simple inspección visual es totalmente desaconsejable. Ahora bien, podemos optar por otra ruta más directa que consista en modelizar los datos asumiendo que existe la posibilidad de que algunos de ellos sean ruido.

Eso es precisamente lo que hago en la siguiente figura. Los puntos azules representan los datos originales y las curvas de nivel del mismo color se corresponden con una distribución normal bajo un supuesto naive sobre los datos. Por otro lado, en rojo se muestra la localización estimada del partido cuando el analista acepta que existe una probabilidad no nula de que algunas observaciones sean en realidad “contaminación”.

Image

No voy a extenderme sobre el método. Lo que quiero señalar es lo llamativa que es la diferencia entre los dos modelos. Y no solo por la cantidad de incertidumbre asociada (no hay más que observar la compresión de las curvas de nivel para todos los niveles en el caso robusto), sino incluso por la orientación de la distribución. Si para ambas estimaciones el PP es esencialmente un partido poco nacionalista y de derechas, un modelo con contaminación revela que la incertidumbre se concentra no tanto en la dimensión nacional como en la ideológica, justo lo contrario de lo que sugiere una estimación tradicional.

  1. En realidad, me inquieta más el olvido sistemático de que se trata de una muestra y de que la honestidad intelectual exige un uso más frecuente de las medidas de incertidumbre. 

  2. Todas las observaciones han sido perturbadas aleatoriamente hasta un másximo de 0.5 puntos de su localización real. Esto facilita la visualización de los datos, aunque naturalmente afecta a los resultados. Animo al lector a replicar el análisis con los datos originales para comprobar que la esencia del argumento no se altera en este caso en concreto