English version (most probably outdated)

Elecciones presidenciales, México 2006

¿Anomalías en el PREP?

Luis Mochán

CCF-UNAM, Cuernavaca, Morelos

Julio 2-9, 2006

Ultima actualización: $Id: index.html,v 1.12 2006/07/14 03:15:09 mochan Exp mochan $ (Ojo: el reloj de mi computadora está 5 hrs. adelantado pues olvidó su huso horario)
Lista de modificaciones recientes.
Archivo RCS con todas las versiones previas (a partir de 11/vii/06). Las puede obtener con el comando co.
Archivo comprimido.
Nuevo: (13/vii/06) Bases de datos del conteo distrital


Resumen

Se presenta un análisis fenomenológico inicial de los datos publicados por el IFE de manera electrónica respecto al proceso electoral llevado a cabo en México el dos de julio del 2006. Se discuten algunos comportamientos de los datos que me han parecido extraños.

Indice


Espejos

Varios lectores han contribuido con espejos de esta página. Es recomendable guardar las ligas por si mi computadora se vuelve inaccesible (lo cual sucede con cierta frecuencia):

  1. Versión original (ocasionalmente estará un poco más actualizada que los espejos).
  2. Espejo 1 (cortesía de LibertadExpresa).
  3. Espejo 2 (cortesía del Departamento de Física del CINVESTAV).
  4. Espejo 3 (Cortesía de ScriptConnector). Para facilitar el acceso, el Ing. Francisco Sam Castillo dividió la página en partes más pequeñas las cuales pueden ser accesadas a través de las siguientes ligas: Parte I, Parte II, Parte III y Parte IV. Hay además un micrositio de seguimiento al proceso electoral que contiene este estudio en la sección Mexico 2006-2012/PREP.
  5. Espejo 4 (cortesía de Patria Nueva). Marcelo Flores hizo además una breve presentación del trabajo.
  6. Probablemente aún me falten otros espejos. ¡Gracias!
Por favor háganme saber aquí los errores que hallen en las ligas mencionadas arriba.

Notas


Inicio

Acaba de concluir la votación presidencial en México y el programa de resultados electorales preliminares (PREP) puso a disposición del público en general los datos parciales conforme eran procesados. Durante la noche de la elección hice un pequeño programa de cómputo para capturar dicha información cada cinco minutos (más el tiempo necesario para que el servidor me contestara). Aquí y aquí guardo copias de todas las páginas capturadas. De ellas es de donde extraje la información que presento abajo, aunque contienen mucha más información que podría serles útil.

Un amigo (Guillermo Barrios del Valle, ¡gracias!) me hizo el favor de organizar los primeros correos recibidos respecto al contenido de esta página. Los puede consultar organizados como cronológicamente o como hilos de discusión. Asimismo, organizó un blog.

Nota:Alfonso Baqueiro (su correo está aquí y su blog aquí) escribió un programa muy similar al mío. Afortunadamente inició más temprano y concluyó más tarde su captura sistemática de datos. Muy amablemente, me los hizo llegar, por lo cual rehice las gráficas que contenía mi página original. Para quienes estén interesados, junto a las nuevas gráficas añadí ligas a las viejas gráficas y a los nuevos y viejos datos. ¡Gracias Alfonso! Gracias también a otros lectores de esta página que me han mandado datos. Desafortunadamente, no he tenido tiempo para incluirlos.


En la figura 1 se muestra a el porcentaje total de la votación logrado por Calderón y por AMLO como función del porcentaje de actas procesadas. Empecé a capturar los datos pues me llamó la atención que cuando apenas se había computado el 1% de las actas, Calderón iba arriba por alrededor de 7% (según recuerdo) y gradual pero sistemáticamente su porcentaje iba disminuyendo mientras el porcentaje de AMLO iba aumentando. (las encuestas pre-electorales predecían un empate técnico). Yo hubiera esperado un resultado muy fluctuante que rápidamente se estabilizaría alrededor de los valores finales hacia el final del conteo. Este resultado muestra que las primeras casillas contabilizadas tuvieron resultados aparentemente atípicos y que le dieron a Calderón una ventaja porcentual considerable que disminuyó conforme avanzaba el conteo. Desgraciadamente no pude capturar los datos desde el principio, pero el comportamiento de esta gráfica se puede extrapolar cualitativamente hasta el momento en que se habían computado el primer por ciento de actas. La pregunta es ¿por qué el inicio de las actas computadas (quizás poco más de 1000 actas) tuvo un comportamiento tan aparentemente atípico? (ver abajo).

Otra característica que me llamó la atención de esta figura es la ausencia de fluctuaciones, aunque creo que eso es normal (ver abajo).

Finalmente, es curioso que la tendencia al alza de AMLO que se había mantenido constante durante el 70% del conteo se revierte rápidamente al llegar al 70%+ de las actas procesadas. Sin embargo, esto podría explicarse si fuera que el voto rural, quizás mayoritariamente pro PRI, hubiera empezado a llegar y a computarse cerca de las 2AM. Otra posible explicación es la llegada de los resultados del noroeste, retrasada debido a las diferencias de huso horario.

Advertencia:Modifiqué la curva correspondiente a Madrazo añadiéndole 13% para poder mostrarla en la misma gráfica. Por lo tanto, el lector deberá restar 13% del valor que lea en el eje vertical.

Figura 1

Gráfica previa
Datos (Datos previos)


La figura 2 indica la velocidad de recepción y proceso de actas. El eje horizontal corresponde a el número de accesos de el programa, diseñado para tomar una fotografía de la página del PREP cada 5 minutos, aunque dada la saturación del sistema, el tiempo de acceso osciló entre 5 y 10 minutos. El eje vertical muestra el porcentaje de actas procesadas. Claramente, hubo una desaceleración notable en la velocidad de recepción y proceso, lo cual podría explicarse con el arribo tardío del voto rural (ver arriba). Cerca del 31-avo dato (correspondiente al 42-avo acceso (los números difieren pues descarté datos repetidos, i.e., datos capturados antes de que se actualizara la página del PREP))), alrededor de la 1:01AM, hay un pequeño salto. Este se debe a que el PREP no actualizó su página en poco más de 20 minutos. A partir de ahí el ritmo de captura empieza a disminuir. Poco después los datos de AMLO en la figura de arriba muestran un máximo e inician un descenso. Antes del pequeño salto el comportamiento es aproximadamente lineal, mientras que después decrece gradualmente. Una explicación tentativa es que al principio del conteo las actas arribaron a una velocidad mayor a la capacidad de proceso del PREP, por lo cual se formó una cola. Hasta la 1AM el PREP estaría trabajando a su máxima capacidad, que podemos estimar como la pendiente de la región recta. De las páginas del PREP se infiere que de las 21:30 a la 1:01 se procesaron cerca de 70,000 actas, por lo que la capacidad de proceso del sistema es de aproximadamente 330 actas por minuto. Como hubo 300 distritos, esto da un ritmo de un acta por minuto en cada oficina. Habiendo disminuido el ritmo de llegada de las actas, las actas se procesarían inmediatamente conforme fueran llegando y la velocidad de proceso aparente en la figura sería simplemente la velocidad promedio de arribo.

Figura 2

Gráfica previa
Datos (los mismos que para la figura 1) (Datos previos)


En la figura 3 se muestra el número total de votos obtenidos por los tres candidatos como función del número de actas procesadas. Curiosamente, Calderón y AMLO incrementan su número de votos aproximadamente con la misma velocidad. Calderón y AMLO recibieron aproximadamente el mismo número de votos por casilla computada. Es por ello que me pareció atípico que en las primeras casillas computadas (no mostradas) Calderón estableciera una fuerte diferencia que no se modificó prácticamente en las demás casillas. Esta gráfica indica que el acercamiento entre los porcentajes de la votación obtenidos por Calderón y por AMLO disminuyó al transcurrir el tiempo sobre todo por el aumento del número total de votos computados y no por que hubiera disminuido la diferencia de votos entre ellos (ver figura 6).

Figura 3

Gráfica previa
Datos (Datos previos)


En esta figura muestro los votos obtenidos por Calderón, AMLO y Madrazo en cada casilla, promediados sobre todas las actas que se procesaron en los 5-10 minutos en que el programa obtenía una nueva radiografía del proceso. Esta gráfica muestra fluctuaciones aparentemente normales (ver arriba) y resultados muy similares para los candidatos durante el tiempo que el programa estuvo capturando datos. Hacia el final, el número de votos disminuye y las fluctuaciones aumentan, pero podría ser consecuencia de la llegada de votos rurales, de comunidades aisladas, cada vez más espaciados en el tiempo, mientras que los tiempos de muestreo fueron uniformes. Hay sin embargo una anomalía curiosa alrededor de las 61000-62000 actas procesadas, en que aparecen estructuras similares correlacionadas en las curvas correspondientes a los tres candidatos. Una anomalía que definitivamente requiere explicación corresponde a los datos hacia el final del conteo, donde se ven fluctuaciones tan grandes que se salen de la gráfica. En esta región se llegan a detectar más de 1200 votos por casilla. Creo que ninguna casilla debía haber recibido más de 750 votos. Peor aún, algunos datos indican un número de votos por casilla negativos. Estudiando con detalle una de éstas anomalías a través de las páginas del PREP, encontré que el número de actas procesadas a las 12:39 era de 127772, mientras que hora y media después, a las 14:03, el número disminuyó abruptamente, situándose en 127752, por debajo de su valor a las 12:39. Durante mi reducción de datos ordené los registros de acuerdo al número de actas procesadas. Si las hubiera ordenado cronológicamente, ya sea por la hora de captura del registro o por la hora de corte estampada por el PREP, las inconsistencias descritas arriba hubieran sido mucho más grandes. Este es un error que sólo podría ser explicado por personal del PREP.

Figura 4

Gráfica previa
Datos (Datos previos)


La figura 5 muestra la diferencia entre los votos atribuidos a Calderón y a AMLO como función del número de actas procesadas. La curva muestra claramente tres regiones: una subida seguida de una caída, otra subida y finalmente algunas fluctuaciones. Las primeras tres regiones muestran pendientes bastante constantes y las transiciones de una a otra son bastante abruptas. El origen de dichas transiciones debe ser explicado. Quité de esta gráfica las barras de error que mostraba mi figura previa pues un colega me hizo ver que mi estimación de la dispersión esperada era incorrecta. Aún no hago un análisis de las fluctuaciones de estos datos para checar si son o no anómalos.

Figura 5

Gráfica previa
Datos (los mismos que para la figura 3) (Datos previos)


En esta figura muestro los datos iniciales de la figura 3, correspondientes a las primeras 20,000 actas capturadas. Con una línea vertical he marcado desde donde tengo datos capturados sistemáticamente (con 10943 actas procesadas). De ahí a la derecha se muestran los datos capturados para los tres candidatos. Los tres candidatos muestran una tendencia lineal sin fluctuaciones aparentes, quizás por haberse acumulado ya un número grande de votos, del orden de un millón. Del lado izquierdo de la línea vertical muestro tres líneas rectas (no rotuladas) que parten del origen y terminan en el primer dato capturado para cada candidato. Extrapolé dichas líneas hacia el lado derecho de la gráfica para compararlas con los datos iniciales de los candidatos. En el caso de Calderón, los datos del PREP y la línea recta que parte del origen son prácticamente indistinguibles. En el caso de Madrazo hay una ligera diferencia, lo cual refleja que la votación por acta hacia Madrazo iba aumentando gradualmente, lo cual es consistente con la figura 4. Sin embargo, la línea recta correspondiente a AMLO se aleja bastante más rápidamente de los datos obtenidos del PREP. Eso hace suponer que en las primeras 10,000 casillas la votación por AMLO fue significativamente menor que en las subsiguientes. La pendiente inicial correspondiente a la curva de AMLO tuvo que ser notablemente menor que la pendiente subsiguiente, pues obviamente los datos deberían pasar por el origen. Es sin embargo interesante hacer una extrapolación de los datos de AMLO. Empleando los datos del intervalo [10,000:20,000] hice una extrapolación lineal. La ordenada al origen es -126,000. Curiosamente, dicho número es muy cercano a (menos) el número total de casillas. La figura que le sigue (figura 7) es la misma que la figura 6 pero extendida hasta 70,000 actas. Me llama la atención que el ajuste lineal a los datos iniciales de AMLO, empleando para el mismo sólo los datos entre 10,000 y 20,000, es prácticamente indistinguible de los resultados correspondientes del PREP sobre todo el rango. ¿Por qué la extrapolación hacia el lado derecho de la gráfica es tan buena, mientras que la extrapolación hacia el lado izquierdo es tan mala?

En un escenario de mucha especulación sobre conspiraciones, estos datos podrían interpretarse de la siguiente manera: Pareciera haberse restado un voto a favor de AMLO por cada una de las 130,000 casillas durante la acumulación de los resultados. Seguramente, se podrían encontrar otras explicaciones. Será interesante saber por qué el voto de las primeras 10,000 casillas fue tan distinto al de las 60,000 casillas subsiguientes, el cual habíamos visto en la figura 5 que es muy distinto al de los que siguieron. Urge procesar los datos correspondientes a las primeras 10,000 casillas. Un lector de esta página acumuló datos manualmente desde las 8:00PM. Están disponibles aquí. En cuanto tenga tiempo intentaré añadir esos datos a la figura 6.

Figura 6

Datos (los mismos que para la figura 3)

Figura 7

Datos (los mismos que para la figura 3)


Datos de la base de datos por casilla

Empecé (7/VII/06) a procesar la base de datos del PREP y me encontré con algunas dificultades.

  1. El número de registros que contiene es 117,287. Como no he tenido tiempo de seguir las noticias no estoy seguro en cual de las cuentas entrarían los 13,200 registros faltantes necesarios para completar las 130,488 reportado en las páginas del PREP durante el conteo.
  2. Ya conseguí también las bases de datos de senadores y diputados. Contienen 120,032 y 120,091 registros respectivamente. ¿Por qué difieren en alrededor de 2700 registros de la base para presidente?
  3. Además de los registros faltantes, hay otros 22,538 que tienen un asterisco ('*') en alguno de los campos numéricos. El problema me saltó a la vista al tratar de checar la consistencia de los datos numéricos. Aquí guardé la base de datos correspondiente a estos registros incompletos.
  4. Eliminando los registros con asteriscos, hay 27,073 registros que considero inconsistentes, pues la suma de los campos PAN, ALIANZA_POR_MEXICO, POR_EL_BIEN_DE_TODOS, NUEVA_ALIANZA, ALTERNATIVA_SOCIAL_DEMOCRATA, NO_REGISTRADOS y NULOS no es igual al número de BOLETAS_DEPOSITADAS. Aquí guardé la base de datos correspondiente.
  5. El NUMERO_VOTANTES siempre es consistente con la suma de PAN+ALIANZA_...(tal vez porque así se defina). Verifiqué que el NUMERO_VOTANTES se conserva consistente aún si reemplazo todos los asteriscos por ceros en lugar de eliminarlos. Por lo tanto, en los análisis subsiguientes realizo dicha modificación.
  6. Reemplazando los asteriscos por ceros, obtengo que la suma de las BOLETAS_DEPOSITADAS es 35,876,783 y la de los NUMERO_VOTANTES es 38,516,730, por lo cual parece haber 2,639,947 más votos que boletas depositadas en las urnas. Por otro lado, si elimino los registros con asteriscos, obtengo 35,876,783 boletas depositadas y 36,100,471 votantes, 223,688 más votantes que boletas depositadas.

La figura 8 muestra el porcentaje de la votación obtenida por cada candidato como función del tiempo. El tiempo está medido en minutos transcurridos desde el inicio del conteo, el cual tomé como la hora de recepción de la primera acta (18:35). Esta gráfica es similar a la figura 1, pero graficada como función del tiempo en lugar del número de actas procesadas. Además, está figura fue construida con los datos detallados del prep, casilla por casilla, y no con los que capturamos via la red, por lo cual se puede mostrar el conteo completo. Inicialmente, había una fuerte ventaja para Madrazo, seguido de Calderón y finalmente de AMLO. Durante la primera hora hay fuertes fluctuaciones, lo cual era de esperar, y las curvas se cruzan algunas veces. Los datos se estabilizan gradualmente hasta que pasadas dos horas y media las fluctuaciones se vuelven marginales. Me imagino que el PREP no reportó los datos iniciales sino que esperó a que estos se hubiesen estabilizado.

Figura 8

Datos


La figura 9 es similar a la figura 8, pero graficada como función del número de actas computadas. Como muy al inicio las actas llegaron muy espaciadas, en esta gráfica no se aprecia la región fluctuante que es muy claramente visible en la figura 9; queda comprimida en el extremo izquierdo. Para poder mostrar más claramente la estructura de las distintas curvas, reduje el rango de la gráfica (perdiendo algunos de los primeros puntos) y le añadí 13% a Madrazo, que el lector debe restar, como en la figura 1. Los datos parecen concordar con los de la figura 1, pero muestran un nivel mayor de fluctuaciones. El máximo en el porcentaje de votos para Calderón se da cuando ya había 4500 actas computadas y casi un millón de votos.

Figura 9

Datos (como en la figura 8).


Esta figura es análoga a la figura 2 pero como función del tiempo y no como función de mi número de acceso (similar al tiempo). Las conclusiones que se pueden derivar de ella son esencialmente las mismas. La capacidad del PREP es de aproximadamente un acta por distrito cada minuto. Esta gráfica es mucho más suave que la figura 2 y, como empieza mucho antes, muestra cómo la velocidad de arribo de la información se incrementó gradualmente durante los primeros 200 mins. del conteo. Para poder observar esta región, multipliqué en ella los datos por un factor de 1000. Las oscilaciones en la parte lineal de la figura 2 están aquí ausentes, y en particular, no se ve el brinco de alrededor de la 1:00AM que previamente me había llamado la atención. Quizás podría deberse a que el momento para realizar cada actualización de la página del PREP estaba bajo control humano, no de un código de computadora, y el encargado se fue a tomar un café mientras el sistema seguía capturando datos de manera uniforme.

Figura 10

Datos (como en la figura 8).


La figura 11 muestra los votos obtenidos por cada uno de los candidatos como función del tiempo de conteo. Cualitativamente, la figura sigue las tendencias del número total de votos.

Figura 11

Datos (como en la figura 8).


Esta figura muestra los votos como función del número de actas procesadas. A diferencia de la figura 11, y de manera similar a la figura 3, en ésta el comportamiento es básicamente lineal para los tres candidatos durante la mayor parte del rango, con ligeras modificaciones visibles al principio y al final.

Figura 12

Datos (como en la figura 8).


Las figuras 13, 14 y 15 muestran el voto obtenido en cada acta como función del número de proceso de dicha acta para Calderón, Madrazo y AMLO respectivamente. Cada punto en la gráfica corresponde a un acta. Las regiones obscuras corresponden a resultados frecuentes y deben ser cercanas a las votaciones promedio (como las mostradas previamente en la figura 4. El ancho de dichas regiones corresponde a las dispersiones alrededor de los valores promedio. Qué tanto difieran dichas regiones de ser franjas horizontales es una medida de las variaciones de las preferencias electorales entre el electorado que fue contado antes vs. después. Debe ser interesante (y fácil) rehacer este diagrama para observar los promedios y variaciones de la preferencias de acuerdo a la zona geográfica. Cuidado: Estas figuras pueden mostrar una textura interesante pero que puede no ser significativa. El voto en cada casilla es un número entero y puede aparecer un batimiento entre las posiciones ocupadas por los puntos que representan los datos y los pixeles de la pantalla de su computadora. Es interesante notar que las figuras correspondientes al PAN muestra una franja relativamente ancha, mientras que la del PRI es una franja muy angosta. ¿Representará esto el llamado voto duro del PRI? Por otro lado, la figura correspondiente al PRD muestra una franja angosta pero con muchos puntos que caen arriba de dicha franja. Para AMLO la distribución parece ser mucho más asimétrica que para sus contendientes. Las franjas claras en la parte baja de las gráficas de Madrazo y de AMLO muestran que en casi todas las casillas obtuvieron al menos una o dos decenas de votos. Por otro lado, la franja clara correspondiente a Calderón está muy tenuemente marcada y parece desaparecer después de la 90,000-ava casilla, lo cual implicaría que en un número significativo de casillas recibió pocos o nulos votos. La franja clara correspondiente a AMLO no desaparece, pero se adelgaza visiblemente en dicha zona. Pareciera ser que entre las últimas actas recibidas, muchas provinieron de regiones muy polarizadas en las que barría ya fuera uno o el otro de los dos contendientes principales. ¿Por qué son tan distintos los diagramas para cada candidato? ¿Por qué cambia el comportamiento de los datos de Calderón y de AMLO después del acta 90,000?

Figura 13

Datos.

Figura 14

Datos.

Figura 15

Datos.


Para visualizar la distribución de votos de los candidatos principales de manera más clara, en las figuras 16, 17 y 18 muestro los histogramas correspondientes a los datos de las figuras 13, 14 y 15. Cada punto en esta gráfica está determinado por dos números: uno (el que leemos en el eje horizontal debajo de él) representa un posible número de votos; el otro (el que leemos en el eje vertical a su izquierda) representa en cuantas actas se reportó ese número de votos.

La figura 16, correspondiente a Madrazo, muestra un comportamiento muy común en procesos con cierta aleatoriedad. Tiene un máximo que resulta estar en 53 votos con una altura de 1603 actas, i.e., obtuvo 53 votos en 1603 de las cerca de 117000 actas. A ambos lados del máximo, el número de actas disminuye gradualmente con algunas fluctuaciones. Como el número máximo de votos que podría haber obtenido es mucho mayor que 55 (del orden de 700), mientras que el número mínimo de votos que pudo haber sacado (0) es relativamente cercano a 55, el decaimiento hacia la derecha es más lento que el decaimiento hacia la izquierda, i.e., su distribución es unimodal (tiene un pico), y corresponde a una curva suave ligeramente asimétrica. Se ve cualitativamente como la famosa campana de Gauss pero deformada. Apenas obtuvo cero votos en un manojo de actas.

Figura 16

Datos.

Los datos correspondiente a AMLO se ven bastante peculiares. Tienen un máximo en una posición cercana al máximo de Madrazo, aunque con una altura menor. A la derecha del máximo muestra un decaimiento suave mucho más extendido que el de Madrazo pero cualitativamente similar. Lo que me llama mucho la atención es que el decaimiento hacia la izquierda del máximo no parece ser una curva suave sino más bien podría describirse muy bien por una burda línea recta, cuya ordenada al origen estaría entre 25 y 50 actas donde habría obtenido 0 votos. De hecho, obtuvo 0 votos en 45 casillas. A diferencia de la curva típica de Madrazo, la de AMLO tiene un quiebre abrupto en el máximo. Las curvas usuales suelen empezar con curvatura positiva, la cual cambia de signo antes de llegar al máximo y vuelve a cambiar de signo a medio descenso. Esta curva podría describirse como una curva típica a la que se le cortó una parte.

Figura 17

Datos.

Los datos correspondientes a Calderón son más curiosos aún. Tienen un máximo muy ancho cercano a los 80 votos por acta con una altura cercana a 700 actas. Hacia la derecha tiene un decaimiento extendido y suave cualitativamente similar al de AMLO. Hacia la izquierda, el decaimiento comienza de una manera normal, con la misma forma que el de Madrazo, pero cambia su comportamiento pues aparece un segundo pico con un máximo cerca de 15 votos. La mayor parte de la contribución a este segundo pico se debe a las actas que más tarde llegaron al IFE. Para ilustrar esta afirmación, en la figura 19 se muestra el histograma de la votación de Calderón correspondiente a las últimas 30,000 actas procesadas. Es sorprendente que la diferencia con la figura 18 sea tan grande. Era de esperar una curva similar aunque con una altura menor y con fluctuaciones más visibles por tener menos datos. En lugar de eso, vemos que la parte derecha de la curva ha sido muy abatida, mientras que la parte izquierda apenas empieza a cambiar su tamaño. Estos datos tienen la forma típica que corresponde a la suma de dos distribuciones distintas, cada una con sus propias características. En este caso una describe la banda gris horizontal previamente discutida y que se extiende a todo lo ancho de la figura 13. La segunda distribución corresponde a la región anómala que muestra la figura 13 sobretodo a partir del acta número 90,000. Las dos distribuciones parecen cruzarse alrededor de los 30 votos. Podemos eliminar la subjetividad en esta estimación, usando el mínimo de la distribución, el cual está en 29 votos. Consideremos un punto tomado de la figura 18, correspondiente a H actas con N votos cada una. Ese punto contribuye HxN votos en total. Sumando dichos productos sobre todos los puntos desde que N es igual a cero y hasta que sea igual a 29, donde se cortan las dos distribuciones, podemos estimar el número total de votos que obtuvo Calderón a partir de sumar la segunda distribución anómala: el número de actas en que Calderón obtuvo 29 o menos votos fue de 9914; el número total de votos contenidos en dichas actas fue de 149,329. Una forma más cuantitativamente aceptable de hacer el cálculo previo es mediante un ajuste en que se proponga cierto número de curvas tomadas de una familia tal y como la familia de curvas Lorentzianas, se optimizan los parámetros de cada una de las curvas de manera que su suma sea la mejor aproximación posible a los datos, y finalmente se integran las funciones analíticas resultantes para obtener el número de actas y el número de votos contribuidos por cada una de las distribuciones. Este trabajo está en curso con la colaboración de un colega.

Figura 18

Datos.

Figura 19

Datos.

Para que el lector lo pueda comparar, a continuación muestro los histogramas correspondientes a Madrazo y a AMLO calculados con las últimas 30,000 actas. En ambos casos, la forma del histograma es igual a las correspondientes a los datos completos, 16 y 17, solo que escaladas por contener menos datos.

Figura 20

Datos.

Figura 21

Datos.


Las puede consultar aquí y aquí. Un amigo (Jaime Ruiz) me mandó esta y esta gráfica, preparadas con mis mismos datos, pero sobre un rango más grande. La primera muestra que Campa tiene una distribución ordinaria y que en la payor parte de las casillas sacó menos de 10 votos. Por otro lado, la distribución de Patricia Mercado parace ser una suma de dos distribuciones ordinarias, una que apenas se extiende hasta 5 votos y otra hasta 30 votos. Más importante me parece las curvas corresondientes a Calderón, Madrazo y AMLO en la figura 21.2. Estas son las mismas que mis figuras 16, 17 y 18, pero superpuestas y graficadas en un rango mayor. En la figura se ve claramente que las curvas corresondientes a Calderón y a AMLO son my cercanas entre sí y siguen un comportamiento normal en la región correspondiente a actas con más de 180 votos cada una. Sin embargo, cerca de 180 votos, la curva corerspondiente a AMLO cambia abruptamente de pendiente situandose a la izquierda de este punto por debajo de Calderón. No he podido encontrar una explicación para este cambio abrupto. La parte superior de la curva de Calderón se ve muy plana y ancha comparada con la de los otros dos candidatos. Finalmente, es donde se vuelven a encontrar las dos distribbuciones donde aparece la anomalía inferior de la curva de Calderón, la cual tiene un cambio abrupto de pendiente volviéndose horizontal en el extremo izquierdo. Note que el detalle en el extremo izquierdo de la curva correspondiente a Patricia Mercado en la figura 21.1 se puede interpretar mediante la suma de dos curvas suaves, mientras que el detalle a la izquierda de la curva de Calderón aparece de un manera abrupta y poco natural.

Figura 21.1

Datos.

Figura 21.2

Datos.


Es importante conocer las estadísticas de la diferencia de votos entre Calderón y AMLO para poder entender la estructura de las figuras 17, 18 y 21.2. En la figura 21.5 muestro un histograma de esta diferencia. A lo largo del eje horizontal se hallan la ventaja que Calderón podría haberle llevado a López Obrador en alguna casilla. El eje vertical indica el número de casillas en los que obtuvo precisamente esa diferencia. Si la diferencia es negativa, simplemente significa que en las casillas correspondientes López Obrador obtuvo más votos que Calderón. A pesar de lo extrañas que son las curvas mostradas en la figura 21.2, el histograma de las diferencias de votos tiene aparentemente una forma simple y común. Es muy poco probable que las diferencias sean demasiado grandes y conforme se hacen pequeñas dicha probabilidad aumenta gradualmente, mostrando un máximo cercano a 0 votos de diferencia. Cualitativamente, la curva parece una gaussiana normal. Sin embargo, los resultados cerca de dicho máximo tienen un comportamiento muy distinto al de una curva normal. Para guiar el ojo, hice un ajuste Gaussiano a todos los datos que se hallan debajo de de la marca de las 250 actas. El ajuste fue de la forma N=A exp(-B(V-C)^2), donde N representa el numero de veces que Calderón le llevo V votos de ventaja a AMLO y A= 432.819+/- 4.352, B = 4.15445x10^{-05} +/- 3.944x10^{-07} y C = 0.126841+/- 0.3256 son los parámetros del ajuste. Notamos que el ajuste es bueno (no excelente) en la parte baja de la distribución, pero que es pésimo en la parte alta. Intenté hacer un ajuste a todos los datos en vez de emplear aquellos con N<250, pero la distorsión para N>250 es tan grande que el ajuste no fue resultó en ninguna parte. De los parámetros de la distribución notamos que su centroide está desplazado una distancia muy pequeña hacia la derecha, es decir, que en promedio Calderón le hubiera ganado a AMLO en 0.1 votos por casilla si la distribución hubiese sido la gaussiana ajustada arriba, i.e., hubiera ganado la elección por 10,000 votos aproximadamente. Sin embargo, su ventaja fue mucho mayor gracias a la deformación en la cima de la distribución. La distribución tiene un cambio discontinuo de pendiente cerca de V=-100. ¿Por qué la distribución es aproximadamente gaussiana en la mayor parte del intervalo? ¿Por qué la distorsión en la parte alta de dicha distribución? ¿Por qué el cambio de pendiente es abrupto al llegar a dicha distorsión?

Figura 21.5

Datos.


Parece ser que la distorsión en la parte alta de la distribución mostrada arriba es la responsable del aparente triunfo de Calderón. Para cuantificar su contribución, en la figura 21.6 muestro la diferencia entre los datos del PREP y la curva ajustada. Para diferencias de votos menores a -100 y mayores a 100 o 150, el resultado es el esperado, i.e., los puntos se distribuyen más o menos simétricamente alrededor de cero (línea horizontal). Sin embargo, en la región entre -100 y 0 los datos están sistemáticamente desplazados hacia abajo y entre 0 y 100 están sistemáticamente desplazados hacia arriba, con un mínimo cerca de -50 y un máximo cercano a 80. Es decir, hay menos casillas en las que AMLO gano por poco que las que seguirían de la distribución normal, y hay más casillas donde Calderón ganó por pocos votos que las que predice la distribución normal. Como si los datos de las actas con poca diferencia migrado hacia la derecha. ¿Cual es el origen de la bajada y subida?

Figura 21.6

Datos.


La figura 22 es similar a la figura 6 pero elaborada con la base de datos detallada. Se muestran tres curvas que corresponden a las votaciones obtenidas por los tres candidatos principales en el intervalo [0:20000], i.e., completando los datos que en la figura 6 sólo podíamos adivinar. Desde luego, las tres curvas pasan por el origen. Se muestran otras tres curvas que fueron obtenidas de un ajuste lineal a los datos del rango [10000:20000]. Los parámetros de dicho ajuste se pueden leer en la llave de la figura (disculpas por no haberlas puesto en el orden previo): las pendientes son 126.731, 63.1543 y 120.122 y las ordenadas al origen son -7143, -49301 y -121637 para Calderón, Madrazo y AMLO respectivamente. La calidad del ajuste se puede apreciar al extrapolarlo hacia toda la gráfica aquí.

Figura 22

Datos.

Figura 23

Datos.


Una forma de distinguir números enteros grandes obtenidos de un proceso estocástico de números inventados tiene que ver con su estadística. A continuación muestro un histograma del número de veces que apareció cada digito entre el 0 y el 9 en la posición de las unidades, i.e., no de las decenas, centenas, etc. La probabilidad de obtener cierto dígito en la última posición debe ser la misma que para cualquier otro dígito. Las figuras 24, 25 y 26 muestran que cada dígito apareció más o menos el mismo número de veces para cada candidato, alrededor de 11700 veces, aunque la dispersión de los datos para AMLO parece ser la mitad que para los otros dos. Curioso.

Figura 24

Datos.

Figura 25

Datos.

Figura 26

Datos.


Intenté descartar el que el resultado previo fuese obra de la casualidad e intenté hacer un programa que evaluara las dispersiones en diversos rangos, etc., pero estoy muy cansado y no me salió. Así que me puse a contemplar mi archivo de resultados y me encontré los datos de Campa y de Mercado. Me ganó la curiosidad...

Figura A25

Datos.

Figura A26

Datos. Noten la escala. Noten la estructura... pero no, no significa nada, pues Campa y Mercado obtuvieron votaciones de un dígito, por lo cual la distribución no tiene por qué ser azarosa.

En todo caso, los valores de la variancia de las gráficas previas son:
Calderón 141.00
Madrazo 102.15
AMLO 69.88
Campa 7910.26
Mercado 2122.94
Como referencia, hay cerca de N=117000 votos, la probabilidad de obtener un dígito cualquiera es p=0.1, el valor promedio del número de veces que aparece un dígito es p*N=11700 y la raiz cuadrada de p*(1-p)*N=102.61. ¿Es esta una buena estimación de la variancia para estos datos? ¡El único dato típico es el de Madrazo! Las enormes variancias de Campa y Mercado son por su extremadamente baja captación de votos. ¿Son razonables las variancias de Calderón (40% más que la esperada) y de AMLO (70% de la esperada)? Este análisis debe repetirse sobre muchos subconjuntos antes de que pueda ser conclusivo.


Existe otra prueba estadística sobre la probabilidad de aparición de dígitos en colecciones de números. Esta es la prueba de Benford. Yo no sabía de ella hasta hoy (11/vii/06) en que leí el artículo que escribió al respecto R. Mansilla. Resulta que desde 1881 se conoce la ley de probabilidad, conocida ahora como Ley de Benford, que describe el histograma de aparición del dígito más significativo de una colección de números aleatorios. Está demostrado que esta distribución se debe cumplir en una gran variedad de bases de datos donde hay algún elemento de azar tan diversas como áreas de ríos, pesos atómicos de los elementos químicos, números de las casa en una ciudad, etc. La aplicación actual más importante de la ley de Benford es la detección de fraudes fiscales.

¿Qué es la ley de Benford (LB)? El dígito más significativo de una colección grande de números se distribuye de la siguiente manera: la probabilidad de hallar el digito D es log(1+1/d)/log(10). Por ejemplo, el dígito D=1 debería aparecer en la primera posición con una probabilidad de log(2)/log(10)=0.301, i.e., aproximádamente el 30% de las veces, mientras que el dígito D=6 debería aparecer con la probabilidad log(1+1/6)/log(10)=0.067, i.e., abajo de 7% de las veces. En la figura 27 muestro la probabilidad de obtener cada uno de los dígitos 1..9 en la posición más significativa, expresada como un porcentaje. Como referencia, marqué también el valor predicho por la LB (línea continua). Curiosamente ¡ninguno de los resultados del PREP es consistente con la LB.

  1. Los datos de Calderón (+) parten de 45% en lugar de 30% y bajan rápidamente mostrando un mínimo para el dígito 4, subiendo posteriormente hasta aproximarse a la ley de Benford para digitos mayores.
  2. Los datos de Madrazo (X) empiezan por debajo de la ley de Benford, tienen un mínimo en 2 y un máximo en 5, y sólo se aproximan a la ley de Benford en 9.
  3. Los datos de AMLO (asteriscos) empiezan arriba de la ley de Benford, tienen un mínimo en 3 y siguen la ley de Benford aproximadamente a partir del 5-6.
  4. Los datos de Campa empiezan poco abajo de la LB y terminan un poco arriba. Decaen de manera monótona. Sin embargo su decaimiento inicial es muy lento comparado con el predicho por la LB.
  5. El comportamiento de Patricia Mercado sigue muy de cerca al de Calderón.
  6. Los no registrados empiezan sobre la LB pero siguen muy de cerca los resultados de Campa.
  7. Los votos nulos siguen cualitativamente el comportamiento de AMLO, aunque con variaciones más pequeñas.
¿Será posible que las violaciones a la LB se deban a que los números de nuestra muestra son muy chicos, todos ellos de 3 o menos dígitos? ¿Habrá efectos de tamaño finito? De ser esta la explicación de las discrepancias, yo esperaría que candidatos con números totales de votos similares siguieran curvas similares. Este no es el caso. Los datos de AMLO y los de Calderón difieren notablemente, a pesar de haber obtenido votaciones muy cercanas. Los datos de Calderón y de Mercado se parecen, a pesar de haber obtenido votacioes muy distintas.

De manera que ningún candidato cumple con la ley de Benford. Sin embargo, si vuelvo a hacer el cálculo sin distinguir los datos correspondientes a un candidato de los de los otros candidatos, es decir, si hago el histograma correspondiente a todos los votos recibidos por todos los candidatos en todas las casillas, incluyendo candidatos no registrados y votos nulos, ¡el resultado se vuelve consistente con la ley de Benford! (figura 28) Esta casualidad... parece milagrosa, aunque... ¡hay otra explicación! (sugerida por Hernán Larralde) Es posible que la ley de Benford no se aplique a nuestras distribuciones, las cuales no son invariantes de escala. Como las distribuciones tienen un máximo (por ejemplo, 53 en el caso de Madrazo), es factible que el dígito más significativo del mismo (5 en el caso de Madrazo) aparezca con una frecuencia mayor que el dígito anterior o que el posterior (4 o 6 para Madrazo). Al agregar todos los datos en un mismo histograma, sumamos candidatos con distintos números esperados de votos y creamos una distribución más parecida a una distribución invariante de escala, con lo cual mejoramos el ajuste a la ley de Benford.

Figura 27

Datos.

Figura 28

Datos.


Conclusiones

A partir de un análisis de los datos que el PREP volvió públicos, he encontrado, con ayuda de muchos colegas y de colaboradores que me son aún desconocidos, una larguísima serie de resultados que, a mi parecer, son anómalos y demandan una explicación detallada. Quizás haya expertos en elecciones y expertos en estadística que puedan ofrecer dicha explicación, o quizás sea necesario esperar el desarrollo de investigaciones científicas detalladas sobre esta elección; sin duda, investigaciones conclusivas de este tipo requerirán mucho tiempo en llevarse a cabo. Quizás no haya problemas con el PREP y las anomalías que he señalado no lo sean en realidad. Sin embargo, mientras no se realicen las investigaciones a que me he referido y no veamos los resultados o hasta que nos aclare algún experto nuestras dudas de manera convincente, y con base en la información que he logrado recopilar y los análisis que he logrado realizar, considero que es razonable sospechar que pudo haber habido una manipulación de los resultados reportados por el PREP. Se me ha dicho que el trabajo que he realizado es irrelevante pues a fin de cuentas el PREP no tiene validez legal. Los datos importantes son los del CONTEO distrital. Sin embargo, me resisto a creer que el PREP haya puesto a nuestra disposición toda la información detallada de la elección con el propósito de que nos entretengamos la noche de la elección o que juguemos a las quinielas. El PREP surgió como un mecanismo que permita a los ciudadanos monitorear y analizar el desarrollo transparente de las elecciones, volviendo difícil o imposible el que se cometan irregularidades sin que sean detectadas. En este sentido, considero que el PREP es un gran instrumento. Pero para que sea un gran éxito, debe llevarse a sus últimas consecuencias. Si hay irregularidades en el PREP, debe suponerse como factible que haya irregularidades semejantes en el CONTEO. Cuando en Ciencia tenemos dudas sobre un resultado, lo que procede es repetir el experimento, repetir el cálculo, verificar, buscar las fuentes de error, eliminarlas, etc. Cuando las dudas tienen una trascendencia tanto mayor para la vida democrática de un país, no debemos hacer menos.


Agradecimientos

Este trabajo ha sido apoyado, inadvertidamente e involuntariamente, por el proyecto DGAPA-UNAM-IN111306. Deseo agradecer immensamente a todos aquellos que han participado en este trabajo análisis enviandome notas, datos, sugerencias o simplemente su apoyo y entusiasmo.
Si desea comentar esta página, por favor envíeme un mensaje aquí o, mejor aún, añada un comentario al blog. Puede consultar los mensajes recibidos con anterioridad, organizados como cronológicamente o como hilos de discusión.


Apéndices

Datos y análisis contribuidos por lectores.

  1. Conclusiones del estudio realizado por el Dr. Victor Romero, investigador del Instituto de Física de la UNAM:
    1. Texto (pdf)
    2. Figura 1
    3. Figura 2
    4. Figura 3
    5. Figura 4
    6. Figura 5
    7. Figura 6
    8. Figura 7
  2. ...Tercero, decir que la afirmación de que primero llegan las actas de las zonas urbanas y luego las de la zona rural es relativamente cierto; pero sólo relativamente. Es proceso es mucho más complicado...Su trabajo es muy mesurado en sus conclusiones. Es, por ello, que me parece que sea una lástima que esté siendo usado por personas extremadamente acaloradas...
  3. ...Si uno hacia el seguimiento del avance del PREP por estado, lo siguiente resalta:...
  4. Resumen: durante en conteo del prep, hay un intervalo durante el que el numero de votos por el prd es una funcion lineal del numero de votos por el pan, con una CHI CUADRADA DE 4 en un fit de VEINTE GRADOS DE LIBERTAD (el valor esperado hubiera sido 20 en vez de 4). Este comportamiento lineal:...lo cual es MUY INUSUAL al ajustar datos reales INCLUSO EN CASOS DONDE SE SABE QUE HAY UNA DEPENDENCIA LINEAL. En este caso, esto es aun mas improbable, pues EL NUMERO DE VOTOS NO TIENE POR QUE SEGUIR UN COMPORTAMIENTO LINEAL Y UNIFORME, menos durante un intervalo tan grande.
    1. Texto
    2. Imagen 1
    3. Imagen 2
    4. Imagen 3
    5. Imagen 4
  5. Análisis de los resultados electorales a partir de la Ley de Benford, por R. Mansilla CEIICH, UNAM. Conclusiones: Resulta muy difícil explicar el comportamiento de las distribuciones empíricas de los candidatos a la luz de los resultados teóricos antes expuestos. La ley de Benford es una regularidad bastante universal y toda divergencia de la misma debe ser observada con suspicacia.
  6. ...Mas aun, si sumas los porcentajes de todos los partidos, nulos y candidatos no registrados que proporciona el PREP nunca obtienes 100%.
  7. Mexico remains without an elected president. In the last few days a number of problems have surfaced in the election.

Información adicional

  1. Códigos empleados: Disculpas, pero como los elaboré a la carrera son algo crípticos y no creo poder entenderlos en un par de días más. Quizás estas versiones no sean las últimas y no funcionen; sólo son las que me encontré regadas por mi computadora. Ilustran en todo caso que Linux es mejor que Windows, pues tiene herramientas poderosísimas gratis... (pero eso es otra batalla)
    1. Mi programa en perl para capturar los datos del prep.
    2. Mi programa en bash para extraer los totales de votos de una página web del prep.
    3. Mi programa en bash para extraer los porcentajes de la votación de una página web del prep.
    4. Comando típico para emplear los programas previos que extraen datos de las páginas web:
      for i in index_contenido.html.* ; do ~/txt/papers/06/elecciones/extraenumerosh $i >>rem.dat; done
    5. Comando para formatear las tablas correspondientes a la figura 1:
      perl -pe 's/\s*//; s/%//g;chomp; $_.=[" "," ", " ", "\n"]->[$i++%4]; ' rem1.dat
    6. Comando para formatear los datos correspondientes a la figura 3:
      perl -pe 's/\s*//; s/,//g;chomp; $_.=[" "," ", " ", "\n"]->[$i++%4]; ' rem1.dat
    7. Comando para preparar los datos de la figura 4:
      perl -nae 'BEGIN{@o=(0,0,0,0)} {@n=@F; print "$n[0]", join " ", (map {" ".($n[$_]-$o[$_])/($n[0]-$o[0])} (1,2,3)), "\n";@o=@n }' numeros.dat >diferenciasporcasilla.dat
  2. Base de datos del PREP
  3. Datos completos del PREP en la elección para presidente ¡por casilla! (¡Gracias Mauricio!)
  4. La misma base (sin el encabezado de e-mail de Mauricio).
  5. La misma base pero ordenada por orden cronológico de sellado
  6. Una sección de la base de datos, mostrando votos por casilla como función del tiempo sin agregar. Los campos seleccionados son TIEMPO (en minutos transcurridos a partir del inicio del conteo ¡a las 18:35!), datos del PAN, ALIANZA_POR_MEXICO, POR_EL_BIEN_DE_TODOS, NUEVA_ALIANZA, ALTERNATIVA_SOCIAL_DEMOCRATA, NO_REGISTRADOS, NULOS y NUMERO_VOTANTES.
  7. Un pequeño iprograma en perl para extraer campos seleccionados de la base de datos previas. El programa puede ser fácilmente adaptado a otras bases de datos similares y para hacer proceso sobre los datos obtenidos.
  8. Una sección de la base de datos, mostrando votos acumulados como función del tiempo.
  9. Base de datos del PREP para la elección de senadores, casilla por casilla.
  10. Base de datos del PREP para la elección de diputados, casilla por casilla.
  11. Bases de datos del CONTEO DISTRITAL para la elección de presidente, diputados y senadores, casilla por casilla.
  12. Programa en PERL para extraer datos específicos de las bases anteriores. Puede ser modificado fácilmente para procesar dichos datos.
  13. Versiones comprimidas originales de las bases de datos del CONTEO DISTRITAL para la elección de presidente, diputados y senadores, casilla por casilla, obtenidas de aquí. Nota: mis versiones '.txt' difieren de las contenidas en estos archivos en los retornos de carro. El IFE comprimió esos archivos en máquinas WINDOWS ¡¡Lo cual me horroriza!! Manejar información delicada con sistemas operativos tán susceptibles a ataques me parece una imprudencia. ¿Uds. han sabido de alguna máquina infectada por virus? ¿Recuerda el nombre de su sistema operativo?
visitas desde 14, jul 18:15:04.