[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: Algunos comentarios de tu analisis del PREP



> Estimado Fernando,
> 	No pude seguir aún los detalles de tu cálculo, pero estoy de
> acuerdo en que la distribución de últimos dígitos no tiene por qué ser
> perfectamente equiprobable, pero sí aproximadamente equiprobables.

Bueno, es que me salte algunos pasos en la explicacion.  De cualquier manera 
me parece que para ser correcto hace falta acoplar la distribucion para 
obtener los resultados.  A ver si logro hacer esto y te mando el calculo mas 
detallado.

> El 
> contraejemplo de los partidos pequeños es  tajante. La pregunta es ¿qué
> tanto esperas que se aleje de la equiprobabilidad? Un análisis como el
> tuyo ¿podrá explicar por qué la varianza calculada sobre los dígitos de
> Calderón es mayor que sobre RM y la de RM por arriba de la de AMLO?Algo 
> que me sorprende es que el histograma de votos totales para RM es más
> angosto que para los otros dos candidatos. ¿No deberían sus dígitos ser
> entonces menos equiprobables y por lo tanto con una mayor desviación
> estandard? 

No estoy seguro, es una pregunta dificil.  En el caso extremo, si la 
desviacion es casi 0, entonces debemos de esperar una muy grande variabilidad 
en los digitos como dices tu.  Pero por otro lado, mientras mas area cercana 
al origen ocupe la distribucion tambien debe de haber mayor desviacion.  
Luego entonces la media y la forma particular de la distribucion debe de 
influir en mucho, y no solo lo angosto o extenso de la distribucion.

Quizas es tiempo para un experimento en python...


import scipy.stats 
import matplotlib
import pylab 
dat=scipy.stats.norm.rvs(size=1000,loc=100,scale=100)   <==Genera una 
distribucion normal centrada en 100.


#Quitamos los elementos negativos
#(lo hago asi porque ndarray no me deja hacer del[i]  (aunque la documentacion 
lo miuestra asi...

datlist=dat.tolist()
newlist=[]
for i in range(len(datlist)):
     if (datlist[i]>=0):
             newlist.append(int (datlist[i]))
ndat=scipy.array(newlist)

#Vamos a ver lo que hemos creao:
pylab.hist(ndat)
pylab.show()
#parecida a la de Calderon (quizas un poco mas alta...), y claro no tiene la 
doble distribucion

#Ahora vamos a contar digitos finales!!
cuentas=scipy.zeros(10)
for i in range(10):
...     for voto in ndat:
...             if (voto%10==i):
...                     cuentas[i]+=1

>>> cuentas
array([368, 369, 372, 352, 394, 398, 351, 397, 360, 377])

>>> probs=1.0*cuentas/len(ndat)
>>> probs
array([ 0.09844837,  0.09871589,  0.09951846,  0.094168  ,  0.10540396,
        0.10647405,  0.09390048,  0.10620653,  0.09630819,  0.10085607])
#Notese que aqui todavia no se ve la distribucion de la que hablo, donde yo 
digo que el 0 es mas probable de aparecer que el 9.


OK, ahora repetimos todo varias veces:

totales=scipy.zeros(10, float)

for simulations in range(1000):
     dat=scipy.stats.norm.rvs(size=1000,loc=100,scale=100)
     datlist=dat.tolist()
     newlist=[]
     for i in range(len(datlist)):
             if (datlist[i]>=0):
                     newlist.append(int (datlist[i]))
     ndat=scipy.array(newlist)
     cuentas=scipy.zeros(10)
     for i in range(10):
              for voto in ndat:
                      if (voto%10==i):
                              cuentas[i]+=1
              totales[i]+=1.0*cuentas[i]/len(ndat)

totales=totales/1000.

>>> totales
array([ 0.10140955,  0.10109005,  0.10090262,  0.10032795,  0.10001321,
        0.0994997 ,  0.09975191,  0.09944239,  0.09923388,  0.09832873])

#Mhmhmm, me gusta!  El digito 9 es casi 2% menos probable de aparecer.  Esto 
es menor a lo obtenido por mi analisis teorico, como es de suponer, ya que se 
ha acoplado la distribucion normal.

Ahora, intente calcular la desviacion estandar que muestras en la figura 60 
uff!, 60 figuras!), pero no estoy seguro de a que te refieres.  Veo dos 
opciones:

a) Tomas todos los votos del PAN (en Guerrero, por ejemplo) y cuentas el 
numero de veces que cada digito final ocurre.   Terminas con un vector de 10 
numeros (como la variable totales arriba).  Le calculas la desviacion a esto 
(lo cual tiene problemas porque son solo 10 muestras!).  Esto me arroja un 
numero de 1.1.  Si este es el caso, habria que repetir el experimento total 
un gran numero de veces y observar la distribucion de las desviaciones, para 
saber que tan probable es obtener cierta desviacion.

b) Tomas los ultimos digitos de todos los votos (del PAN, en Guerrero), y les 
tomas la desviacion estandar (es decir, no cuantificas cuantos digitos 1, 2, 
etc. hay).  Esto me arroja un numero de 2.87, pero no veo que tan 
significativo es este analisis.

Ahora falta ver que efectos tiene el que la distribucion sea mas cerrada o 
abierta, y tambien el efecto de que haya menos actas (mi simulacion la hice 
mas o menos con el mismo numero de votos de Calderon de todo el pais, no 
unicamente de un estado, como Guerrero).  Yo esperaria que al tener menos 
votos haya mayor variabilidad en las estadisticas,

En cualquier caso hay que tener mucho cuidado al hacer este tipo de 
estadisticas, ya que los resultados parecen ser bastante sorprendentes; por 
ende la conclusion "Se puede concluir entonces que la probabilidad de una 
distribución de dígitos como la mostrada en la figura 60 ¡es sumamente 
improbable!"  me parece fuera de lugar...


> Hice los cálculos de los dígitos pues me enteré que con 
> cálculos similares el Dr. Barberán demostró que la elección del 88 sí fue
> fraudulenta, aunque en ella los resultados fueron mucho más contundentes
> que los que obtuve yo.

La verdad es que este tipo de analisis (de los digitos) me parece muy 
interesante; francamente nunca se me hubiera ocurrido; y es un analisis muy 
inteligente que debe de servir para demostrar la manipulacion humana. Sin 
embargo como dije antes hay que tener cuidado, ya que este sistema numerico 
tiene algunas sorpresas encerradas (o al menos encerradas para mi, que no soy 
ningun experto en el area.  Debe de existir una gran cantidad de literatura 
al respecto). 

Tienes alguna referencia de este material (Dr. Barberan)?  Me gustaria leer un 
poco al respecto.   


En fin, me ha dado mucho gusto el poder aportar mis ideas y entablar un 
dialogo contigo.   Hacia finales de a~o voy para Mexico y me pienso quedar 
algunos dias en Cuernavaca  (me parece que ahi es donde trabajas).  Quizas 
pueda darme una vuelta para saludar.


Fernando

-- 
------------------------
Dr. Fernando Rodriguez                  <xxx@xxx.xxx.xxx>
Dept. of E&E Engineering                voice: +44(0)141 330 4108
University of Glasgow                   FAX: +44(0)141 330 4907
Glasgow G12 8LT                         PGP key in
http://www.keyserver.net

PGP Fingerprint: 410B 1A70 2E53 788F B2DC  0D7C 5148 DA9E DDF0 B0A9