[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: Algunos comentarios de tu analisis del PREP



Hola Fernando,
	Gracias por tu análisis y programa, etc. Ayer le pregunté a Luis 
Horacio Gutierrez sobre la equiprobabilidad del último dígito. El cree que 
quitando el primero, los demás deben obedecer la ley de Benford. Para el 
segundo dígito, el 0 tiene una probabilidad más o menos de 12% y el 9 de 
8.5%. Para el tercer dígito la probabilidad varía mucho menos. El último 
dígito es en general el tercero o el segundo, así que uno esperaría una 
distribución intermedia, i.e., casi equiprobable, pero... si las 
desviaciones de la equiprobabilidad fueran menores a la desviación 
estandard (sqrt(0.1*0.9*N) esperada mi análisis podría quedar sin 
sustento. Le tengo que pensar y por lo pronto voy a referir tu carta en mi 
página. En cuanto a tus dudas, lo que hice en la fig. 60 (!) fue lo sig. 
(creo que fue tu primera alternativa): conté en cuantas de las N 
actas de cada estado apareció cada dígito. Suponiendo equiprobabilidad 
el promedio debió haber sido 0.1N. Calculé la desviación estandard como 
si cada dígito representara una de diez mediciones independientes de esta 
media 0.1N. Dicha desviación debería describirse por una distribución ji 
cuadrada con 9 grados de libertad, así que pude calcular la probabilidad 
de que la desviación excediera tal o cual valor. Así es como llegué al 
valor de 1/100,000 para el PAN en Guerrero, donde la desviación estandard 
es más del doble que la esperada. Como podría haber sucedido en cualquier 
otro estado, la probabilidad aumenta a 3/10,000.

Me entra una duda: ¿Si tu crítica invalidara este análisis, no hubiera 
salido la varianza siempre mayor a la que yo esperaba?

Saludos,
Luis


On Thu, 3 Aug 2006 xxx@xxx.xxx.xxx wrote:

> 
> > Estimado Fernando,
> > 	No pude seguir aún los detalles de tu cálculo, pero estoy de
> > acuerdo en que la distribución de últimos dígitos no tiene por qué ser
> > perfectamente equiprobable, pero sí aproximadamente equiprobables.
> 
> Bueno, es que me salte algunos pasos en la explicacion.  De cualquier manera 
> me parece que para ser correcto hace falta acoplar la distribucion para 
> obtener los resultados.  A ver si logro hacer esto y te mando el calculo mas 
> detallado.
> 
> > El 
> > contraejemplo de los partidos pequeños es  tajante. La pregunta es ¿qué
> > tanto esperas que se aleje de la equiprobabilidad? Un análisis como el
> > tuyo ¿podrá explicar por qué la varianza calculada sobre los dígitos de
> > Calderón es mayor que sobre RM y la de RM por arriba de la de AMLO?Algo 
> > que me sorprende es que el histograma de votos totales para RM es más
> > angosto que para los otros dos candidatos. ¿No deberían sus dígitos ser
> > entonces menos equiprobables y por lo tanto con una mayor desviación
> > estandard? 
> 
> No estoy seguro, es una pregunta dificil.  En el caso extremo, si la 
> desviacion es casi 0, entonces debemos de esperar una muy grande variabilidad 
> en los digitos como dices tu.  Pero por otro lado, mientras mas area cercana 
> al origen ocupe la distribucion tambien debe de haber mayor desviacion.  
> Luego entonces la media y la forma particular de la distribucion debe de 
> influir en mucho, y no solo lo angosto o extenso de la distribucion.
> 
> Quizas es tiempo para un experimento en python...
> 
> 
> import scipy.stats 
> import matplotlib
> import pylab 
> dat=scipy.stats.norm.rvs(size=1000,loc=100,scale=100)   <==Genera una 
> distribucion normal centrada en 100.
> 
> 
> #Quitamos los elementos negativos
> #(lo hago asi porque ndarray no me deja hacer del[i]  (aunque la documentacion 
> lo miuestra asi...
> 
> datlist=dat.tolist()
> newlist=[]
> for i in range(len(datlist)):
>      if (datlist[i]>=0):
>              newlist.append(int (datlist[i]))
> ndat=scipy.array(newlist)
> 
> #Vamos a ver lo que hemos creao:
> pylab.hist(ndat)
> pylab.show()
> #parecida a la de Calderon (quizas un poco mas alta...), y claro no tiene la 
> doble distribucion
> 
> #Ahora vamos a contar digitos finales!!
> cuentas=scipy.zeros(10)
> for i in range(10):
> ...     for voto in ndat:
> ...             if (voto%10==i):
> ...                     cuentas[i]+=1
> 
> >>> cuentas
> array([368, 369, 372, 352, 394, 398, 351, 397, 360, 377])
> 
> >>> probs=1.0*cuentas/len(ndat)
> >>> probs
> array([ 0.09844837,  0.09871589,  0.09951846,  0.094168  ,  0.10540396,
>         0.10647405,  0.09390048,  0.10620653,  0.09630819,  0.10085607])
> #Notese que aqui todavia no se ve la distribucion de la que hablo, donde yo 
> digo que el 0 es mas probable de aparecer que el 9.
> 
> 
> OK, ahora repetimos todo varias veces:
> 
> totales=scipy.zeros(10, float)
> 
> for simulations in range(1000):
>      dat=scipy.stats.norm.rvs(size=1000,loc=100,scale=100)
>      datlist=dat.tolist()
>      newlist=[]
>      for i in range(len(datlist)):
>              if (datlist[i]>=0):
>                      newlist.append(int (datlist[i]))
>      ndat=scipy.array(newlist)
>      cuentas=scipy.zeros(10)
>      for i in range(10):
>               for voto in ndat:
>                       if (voto%10==i):
>                               cuentas[i]+=1
>               totales[i]+=1.0*cuentas[i]/len(ndat)
> 
> totales=totales/1000.
> 
> >>> totales
> array([ 0.10140955,  0.10109005,  0.10090262,  0.10032795,  0.10001321,
>         0.0994997 ,  0.09975191,  0.09944239,  0.09923388,  0.09832873])
> 
> #Mhmhmm, me gusta!  El digito 9 es casi 2% menos probable de aparecer.  Esto 
> es menor a lo obtenido por mi analisis teorico, como es de suponer, ya que se 
> ha acoplado la distribucion normal.
> 
> Ahora, intente calcular la desviacion estandar que muestras en la figura 60 
> uff!, 60 figuras!), pero no estoy seguro de a que te refieres.  Veo dos 
> opciones:
> 
> a) Tomas todos los votos del PAN (en Guerrero, por ejemplo) y cuentas el 
> numero de veces que cada digito final ocurre.   Terminas con un vector de 10 
> numeros (como la variable totales arriba).  Le calculas la desviacion a esto 
> (lo cual tiene problemas porque son solo 10 muestras!).  Esto me arroja un 
> numero de 1.1.  Si este es el caso, habria que repetir el experimento total 
> un gran numero de veces y observar la distribucion de las desviaciones, para 
> saber que tan probable es obtener cierta desviacion.
> 
> b) Tomas los ultimos digitos de todos los votos (del PAN, en Guerrero), y les 
> tomas la desviacion estandar (es decir, no cuantificas cuantos digitos 1, 2, 
> etc. hay).  Esto me arroja un numero de 2.87, pero no veo que tan 
> significativo es este analisis.
> 
> Ahora falta ver que efectos tiene el que la distribucion sea mas cerrada o 
> abierta, y tambien el efecto de que haya menos actas (mi simulacion la hice 
> mas o menos con el mismo numero de votos de Calderon de todo el pais, no 
> unicamente de un estado, como Guerrero).  Yo esperaria que al tener menos 
> votos haya mayor variabilidad en las estadisticas,
> 
> En cualquier caso hay que tener mucho cuidado al hacer este tipo de 
> estadisticas, ya que los resultados parecen ser bastante sorprendentes; por 
> ende la conclusion "Se puede concluir entonces que la probabilidad de una 
> distribución de dígitos como la mostrada en la figura 60 ¡es sumamente 
> improbable!"  me parece fuera de lugar...
> 
> 
> > Hice los cálculos de los dígitos pues me enteré que con 
> > cálculos similares el Dr. Barberán demostró que la elección del 88 sí fue
> > fraudulenta, aunque en ella los resultados fueron mucho más contundentes
> > que los que obtuve yo.
> 
> La verdad es que este tipo de analisis (de los digitos) me parece muy 
> interesante; francamente nunca se me hubiera ocurrido; y es un analisis muy 
> inteligente que debe de servir para demostrar la manipulacion humana. Sin 
> embargo como dije antes hay que tener cuidado, ya que este sistema numerico 
> tiene algunas sorpresas encerradas (o al menos encerradas para mi, que no soy 
> ningun experto en el area.  Debe de existir una gran cantidad de literatura 
> al respecto). 
> 
> Tienes alguna referencia de este material (Dr. Barberan)?  Me gustaria leer un 
> poco al respecto.   
> 
> 
> En fin, me ha dado mucho gusto el poder aportar mis ideas y entablar un 
> dialogo contigo.   Hacia finales de a~o voy para Mexico y me pienso quedar 
> algunos dias en Cuernavaca  (me parece que ahi es donde trabajas).  Quizas 
> pueda darme una vuelta para saludar.
> 
> 
> Fernando
> 
> 

-- 

                                                               o
W. Luis Mochán                    | tel:(52)(777)329-1734     /<(*)
Centro de Ciencias Físicas, UNAM  | fax:(52)(777)317-3077     `>/   /\
Apdo. Postal 48-3, 62251          |     (52)(777)329-1775     (*)/\/  \
Cuernavaca, Morelos, México       | xxx@xxx.xxx.xxx   /\_/\__/