¿Sorpresa en el ajedrez? La apertura y el juego medio satisfacen la ley de Zipf

Nos lo cuenta muy bien en español Ángel Garcimartín Montero, «¡Otra vez la ley de Zipf!,» Materia Blanda, 20 dic. 2009. El lingüista George Kingsley Zipf descubrió que en el idioma inglés la palabra más usada, «the», tiene una frecuencia de uso doble que la siguiente, «of», y triple que la tercera, «and», etc. Una ley que se aplica a cosas tan diversas como las visitas a blogs. El nuevo estudio ha analizado los 40 primeros movimientos de casi un millón y medio de las mejores partidas de ajedrez que se puede descargar de internet (Scid o Shane’s Chess Information Database). Se ha encontrado que los movimientos más frecuentes también siguen la ley de Zipf. Un trabajo interesante desarrollado por Bernd Blasius (Universidad de Oldenburg, Alemania) y Ralf Tönjes (Universidad de Ochanomizu, Tokio), «Zipf’s Law in the Popularity Distribution of Chess Openings,» Phys. Rev. Lett. 103: 218701, 2009 [en ArXiv se envió el 20 Apr. 2007]. A nivel divulgativo en inglés merece la pena leer a Sergei Maslov, «Power laws in chess,» Physics 2: 97, 16 Nov. 2009.

No puedo aportar mucho más a lo que ya se ha dicho sobre este artículo en la blogosfera. Sólo recordar que en este blog lo mencionamos, de pasada en «Para qué sirve la Red Básica en Málaga (o estoy en un atasco de tráfico y el 80% de las calles están vacías),» 17 Febrero 2008. Es realmente curioso que le haya costado dos años y medio a los autores del artículo el lograr publicarlo en Physical Review Letters (el revuelo mediático les habrá valido la pena). Y es realmente curioso que yo la mencionara en una de mis primeras entradas en este blog (he de confesar que el enterarme del artículo publicado en PRL pensé que se trataría de una versión mejorada del que yo había leído y no de una versión resumida del mismo). ¡Sorpresa otra vez! ¿Sorpresa otra vez?

Todo lo que siempre quisiste saber sobre leyes de potencia

Las leyes de potencia están de moda a la hora de interpretar datos experimentales. Pero las leyes de potencia son un arma de doble filo. No es fácil estimar sus parámetros utilizando un estimador de máxima verosimilitud. Códigos en Matlab y en R que te permiten estimar los parámetros de una ley de potencias así como calcular la bondad de dicho ajuste los puedes encontrar en esta página web, resultado de un artículo que se publicará en la prestigiosa SIAM Review, «Power-law distributions in empirical data,» de Aaron Clauset, Cosma Rohilla Shalizi, y M. E. J. Newman, disponible en ArXiv desde junio de 2007 (last revised 2 Feb 2009).

El código más interesante plfit.m no funciona en la versión 6 de Matlab, requiriendo al menos la versión 7 (los cambios para adaptarlo a la versión 6 no son difíciles de hacer pero hay que hacerlos). Es un código lento pero ni mucho menos tan lento como plvar.m que estima el error en los parámetros del ajuste y plpva.m que determina el valor p del ajuste mediante un test de Kolmogorov-Smirnov (si p<0.1 la ley de potencias es un pésimo ajuste a los datos). Estos últimos comandos repiten 1000 veces un cálculo que tarda decenas de segundos. Así que hay que tomárselo con mucha tranquilidad.

Mucha gente afirma que las citas de artículos científicos de un investigador siguen una ley de potencia. Uno de los ejemplos del artículo de Clauset et al. para las citas totales en el ISI WOS (Web of Science) a todos los artículos publicados en una serie de años encuentra un valor de p=0,2 que indica cierta evidencia, pero afirma que una ley de potencias truncada (con un corte) obtiene un p=0,87 (un valor muy bueno). ¿Qué pasará con un autor individual? He buscado en el ISI WOS las publicaciones y su número de citas (a día de hoy) de varios investigadores para comprobar si con los programas de Clauset et al. es válida la hipótesis de que siguen una ley de potencias. Los resultados hasta el año 2008 (inclusive) son los siguientes:

– Edward Witten que tiene 271 artículos y un índice h de 120; obtenemos alpha =1,89 +/- 0,38, con xmin =102 +/- 133, lo que claramente nos hace dudar de la validez de la ley de la potencia, de hecho lo confirma un p=0,001.

– Jorge E. Hirsch, inventor del índice h, que tiene 215 artículos y un índice h de 52; obtenemos un alpha=2,11 +/- 0,29, con xmin=36 +/- 20, un un valor p=0,028. Tampoco sigue una ley de potencia.

– Un investigador español senior con 204 artículos y un índice h de 12; obtenemos alpha=2,33 +/- 0,59, con xmin=4 +/-3, y un p=0,001.

– Un investigador español joven con 48 artículos y un índice h de 8; obtenemos alpha=1,83 +/- 0,50, con xmin=3 +/-4, y un p=0,25.

Son solo 4 ejemplos, pero parece claro que las leyes de potencia no describen bien las citas de investigadores.