Colloqui Artículo :"Las respetables encuestas" de Luis Guillermo Cota

--
Jorge

Página académica, Mis escritos, What have I been doing?

Las respetables encuestas

Luis Guillermo Cota

"Les diría a los ciudadanos que desconfíen de una encuesta

que no presenta bases de datos, tasa de rechazo, tamaño

de la muestra o el margen de error".

María Marván, Consejera del IFE.

En esta campaña electoral han abundado las encuestas como nunca antes y la mayoría de ellas apunta al inexorable triunfo a Enrique Peña Nieto (EPN). Estaremos de acuerdo en que por lo general otorgamos a priori a las encuestas un gran ascendiente por ser un instrumento con bases científicas, y por lo tanto resulta difícil no creerles. Para quien no es simpatizante de EPN es aún más difícil mantener el aplomo viendo los números que éstas consistentemente han reportado. Para quienes lo apoyan, éstas son la antesala del esperado clímax.

Consideremos un caso paradigmático, de entre las encuestas que, según se colige de las palabras de María Marván, no habría que desconfiar: el de las encuestas de GEA-ISA-Milenio. Este triunvirato ha publicado hasta la fecha 95 encuestas, a razón de una diaria. Ahora bien, para levantar una encuesta válida es preciso tomar una muestra al azar del padrón electoral y entrevistar a los seleccionados por esta muestra. Esto quiere decir que en la selección de las personas a entrevistar puede figurar una persona de la Sierra de los Cucapah, dos de Creel, uno de Zacapu, uno en Río Frío, uno en Cozumel, tres de Guadalajara, etcétera. La teoría nos dice que si la muestra es aleatoria y de tamaño suficiente, ésta será un buen representante del universo de electores. Sin embargo, al intentar entrevistar a los seleccionados es probable que algunas de estas personas sean en ese momento inalcanzables (por situaciones adversas a los encuestadores, por ejemplo, por la lluvia o por perros callejeros), no estén en su domicilio o no quieran contestar. Es imposible a priori saberlo. Entonces, puede ser que de 1500 personas seleccionadas originalmente del padrón electoral, quizá contestaron 1355, o 1147.

Es pertinente insistir en el hecho de que Milenio-GEA-ISA publica una encuesta diaria. Es decir, que estas casas encuestadoras tienen que seleccionar diariamente del padrón electoral, al azar, una cierta cantidad de personas diferentes y realizar el mismo procedimiento. Pero como se supone que son personas diferentes, en localidades sin correlación con las del día anterior, etcétera, la respuesta varía. Es decir, que un día habrán obtenido 1152, el otro 1311, 1098, 1021, etcétera. Es fácil estar de acuerdo en que es imposible que el número de entrevistados no varíe de un día a otro, pero para quien argumente que el muestreo se puede detener exactamente en 1200 personas, por ejemplo, tómese en cuenta que existen para una encuesta de este tamaño entre 50 y 100 entrevistadores en distintos lugares, completamente ignorantes de los resultados de sus compañeros y, por lo tanto, entrevistarán al máximo posible de seleccionados que tengan asignados, pues de eso dependerá probablemente la cuantía de su paga. (Es preciso mencionar aquí, de paso, que las encuestas deben ser realizadas en domicilios para ser consideradas válidas por el IFE. No pueden ser telefónicas ni realizarse con personas entrevistadas en la vía pública).

La numeralia

Ahora echemos un vistazo a la Encuesta de las Encuestas, http://www.adnpolitico.com/encuestas y observemos lo que reporta GEA-ISA-Milenio. Lo primero que salta a la vista, es, desde luego, los resultado mismos de sus encuestas diarias, pues son las que consistentemente reportan la preferencia más alta a favor de EPN (la última otorga una ventaja de 18.1% a EPN sobre AMLO). Sin embargo, existe algo más: su muestra es predominantemente de 1152 personas: de las 95 encuestas publicadas por GEA-ISA-Milenio hasta el 20 de junio, sólo 24 reportan un número diferente (los números varían entre 1119 y 1152). (Dicho sea de paso, con ese tamaño de muestra, como se dice en el argot estadístico, el margen de error es de alrededor del 2.9% --éste se obtiene simplemente al dividir uno por la raíz cuadrada de 1152 y multiplicar el resultado por 100--). El asunto de la persistencia de ese número se puede reformular plausiblemente en términos de la distribución binomial de probabilidad: ¿Cuál es la probabilidad de que en 95 tiros (el número de encuestas hecha por Milenio-GEA-ISA) de un (hipotético) dado de 34 lados (1152 - 1119 + 1 = 34) se obtenga 71 veces el mismo número (1152)? He aquí la respuesta:

0.000000000000000000000000000000000000000000000000000000000000000000000000000000000085735.

(Son 84 ceros). Si nuestra estimación estuviera errada, podemos tomarnos la libertad de corregirla a voluntad, haciendo la probabilidad 10, 100, un millón, o, si queremos, cien mil millones de veces mayor. El resultado sigue siendo tan pequeño que incluso los científicos atomísticos no se sentirían a gusto manejando esta cantidad. Para nuestros fines, la probabilidad es cero: tal conjunto de sucesos es imposible (por el contrario, la probabilidad total de que algo ocurra es 1).

Otras consideraciones

Por otro lado, puesto que las dificultades técnicas son enormes, cada encuesta es un trabajo de varios días de levantamiento en campo y quizá de un par de días más de procesamiento de los datos. Pero Milenio-GEA-ISA logra la proeza de realizar una diaria, lo que implica una logística muy complicada pues es necesario tener permanentemente desplegados varios equipos de encuestadores, es decir, de algunos centenares de encuestadores coordinados desde bases operativas repartidas por todo el país.

No menos importante resulta el factor costo: Es sabido que los encuestadores cobran a sus clientes alrededor de 250 pesos por cada cuestionario lleno y válido. Es decir que, como mínimo, Milenio está pagando diariamente más de 250 mil pesos a GEA-ISA por realizar su encuesta. Probablemente el dinero no sea una objeción para Milenio, pero más no es necesariamente mejor, y si la encuesta está bien hecha, las pequeñas variaciones obtenidas de un día a otro son mucho menores que el margen de error. Esto, por supuesto, lo sabe cualquier casa encuestadora, y lo deberían saber sus clientes. Entonces ¿en qué beneficia a Milenio publicar una encuesta diaria en vez de una semanal o quincenal? Y si las encuestas se hacen siguiendo una metodología científica, cual debieran, siguiendo los lineamientos marcados por el IFE, ¿cómo es que difieren tanto los datos entre una y otra, si el error máximo debería andar alrededor del 3%? (En otras palabras, los resultados de todas las encuestas hechas con criterios científicos se deberían distribuir en una banda de 3 o 4%). En palabras de María Marván: "¿Cómo pueden encuestas que dicen ser nacionales traer 20 puntos de ventaja y otra de cuatro? No es creíble. Eso quiere decir, necesariamente, que una de las dos miente".

Por cierto, las encuestas de GEA-ISA (sin Milenio), Mitofsky, El Sol de México-Parametría, Ipsos-Bimsa, Parametría (sin El Sol de México), El Universal-Buendía y Laredo y SDP Noticias-Covarrubias publican encuestas con muestras de 1000 personas. Si bien los únicos que publican muestras diarias son GEA-ISA-Milenio, el razonamiento anterior también es aplicable a estas casas. Sin embargo existe una salvedad en aquel caso, y es que el número 1000 (casi tan bueno como el 1152 de marras en términos estadísticos, pero, al fin y al cabo, un número "cerrado") puede haber sido, no se especifica, el número de personas seleccionadas aleatoriamente, y no el número de personas entrevistadas. Sin embargo esto implica, en el mejor de los casos, una pequeña trampa, puesto que no se conoce en realidad el tamaño de la población muestreada.

¿Qué es lo que pasa entonces? Que las casas encuestadoras manipulan el diseño de su muestra, rompiendo su aleatoriedad por razones de índole práctica, económica, o con un fin aviesamente político. En el caso más venial éstas practican lo que llaman "sustitución", que consiste en cambiar a alguien seleccionado por alguien más accesible o a modo. La lógica es más o menos la siguiente: "¿Qué caso tiene viajar 6 horas en automóvil y luego dos horas a lomo de mula para entrevistar a Juan en su domicilio del otro lado de la sierra, si puedo entrevistar a Pedro que es mi empleado y está aquí, o, si acaso, salir a la banqueta y preguntarle al primero que pase?" O de plano, realizar un muestreo estratificado: irse a una colonia o a una ciudad favorable a tal o cual candidato, enfatizar los muestreos en determinada clase social, o en cierto intervalo de edades, etcétera. Entonces, aunque en realidad las casas encuestadoras realicen las encuestas que dicen que hicieron (descartando -quizá ingenuamente- la posibilidad de que simplemente se hayan inventado los números) el efecto neto es el de cargar los dados. En términos estadísticos una encuesta así, por supuesto, no sirve, pues no es un buen representante de la opinión del total de los votantes.

Los mismos consejeros del IFE han advertido sobre la recurrente falta de cumplimento de las normas por parte de los encuestadores, entre ellas, el de entregar a este organismo la información técnica de cada encuesta. Y como generalmente no está claro quién paga esas encuestas, recurriremos, para terminar, al latinajo: cui bono?

Bien dicen los que saben que hay mentiritas, mentirotas, y estadísticas.

El autor agradece los comentarios de los doctores Pilar Alonso, Jorge A. López Gallardo, Macario Hernández y Luis B. Morales.