¿Sorpresa en el ajedrez? La apertura y el juego medio satisfacen la ley de Zipf

Nos lo cuenta muy bien en español Ángel Garcimartín Montero, «¡Otra vez la ley de Zipf!,» Materia Blanda, 20 dic. 2009. El lingüista George Kingsley Zipf descubrió que en el idioma inglés la palabra más usada, «the», tiene una frecuencia de uso doble que la siguiente, «of», y triple que la tercera, «and», etc. Una ley que se aplica a cosas tan diversas como las visitas a blogs. El nuevo estudio ha analizado los 40 primeros movimientos de casi un millón y medio de las mejores partidas de ajedrez que se puede descargar de internet (Scid o Shane’s Chess Information Database). Se ha encontrado que los movimientos más frecuentes también siguen la ley de Zipf. Un trabajo interesante desarrollado por Bernd Blasius (Universidad de Oldenburg, Alemania) y Ralf Tönjes (Universidad de Ochanomizu, Tokio), «Zipf’s Law in the Popularity Distribution of Chess Openings,» Phys. Rev. Lett. 103: 218701, 2009 [en ArXiv se envió el 20 Apr. 2007]. A nivel divulgativo en inglés merece la pena leer a Sergei Maslov, «Power laws in chess,» Physics 2: 97, 16 Nov. 2009.

No puedo aportar mucho más a lo que ya se ha dicho sobre este artículo en la blogosfera. Sólo recordar que en este blog lo mencionamos, de pasada en «Para qué sirve la Red Básica en Málaga (o estoy en un atasco de tráfico y el 80% de las calles están vacías),» 17 Febrero 2008. Es realmente curioso que le haya costado dos años y medio a los autores del artículo el lograr publicarlo en Physical Review Letters (el revuelo mediático les habrá valido la pena). Y es realmente curioso que yo la mencionara en una de mis primeras entradas en este blog (he de confesar que el enterarme del artículo publicado en PRL pensé que se trataría de una versión mejorada del que yo había leído y no de una versión resumida del mismo). ¡Sorpresa otra vez! ¿Sorpresa otra vez?

Para qué sirve la Red Básica en Málaga (o estoy en un atasco de tráfico y el 80% de las calles están vacías)

Map of Malaga

Las calles en una ciudad se organizan de forma jerárquica de forma tal que la mayoría de las calles «sobran», mientras que una minoría son fundamentales (en Málaga, serían llamadas Red Básica). Sorprendentemente, esta partición puede ser caracterizada por el principio 80/20 (ley de Pareto), es decir, el 80% de las calles están menos conectadas que la media, mientras que el 20% restante estás más conectadas que la media, como muestra Bin Jiang, «Street Hierarchies: A Minority of Streets Account for a Majority of Traffic Flow» ArXiv, submitted on 9 Feb 2008. Más aún hay un 1% (contado en el 20%) que están extremadamente conectadas. El autor ha estudiado empíricamente una ciudad sueca.

Uno de los resultados más interesantes del artículo es el hecho de que el flujo del tráfico tiende a acumularse en las calles mejor conectadas (o al contrario, quizás se han diseñado así), es decir, la conectividad de una calle es un buen predictor del flujo de tráfico en ella. En el 20% de las calles correspodiente a las peor conectadas prácticamente no hay tráfico, en el 1% correspondiente de las mejores conectadas se concentra el 20% del tráfico (número de vehículos por día), y en el 20% de las mejor conectadas está el 80% del tráfico. La ley de Pareto (en el artículo se dice que de Zipf) del 80/20 se cumple también en esta caso.

¿Por qué el artículo habla de «ley de Zipf» en lugar de «ley de Pareto? Lada Adamic, «Zipf, Power-laws, and Pareto – a ranking tutorial» nos aclara su relación. Ambas leyes equivalen a que el dato considerado (conectividad o tráfico) sigue una distribución (probabilística) modelada por una ley potencial, es decir, power-law, Zipf law, y Pareto law son sinónimos. En todos los casos se describe fenómenos en los que los casos significativos son raros y los no significativos muy comunes.

La ley de Zipf tiene muchas aplicaciones, como medir la popularidad de las páginas web o el «share» (audiencia) de las cadenas de televisión. Veamos algunos ejemplos:

Feng Fu, Lianghuan Liu, Kai Yang, and Long Wang, «The structure of self-organized blogosphere,» ArXiv 2006, estudian la distribución estadística de la blogosfera, demostrando que cumplen la hipótesis del mundo pequeño que conduce a distribuciones potenciales (power law) para muchos de sus parámetros.

B. Blasius and R. Toenjes, «Zipf law in the popularity distribution of chess openings,» ArXiv 2007, analizan un gran número de bases de datos de partidas de ajedrez, mostrando que la ley potencial está en la base de la elección de la apertura tanto entre grandes maestros como en aficionados. Lo más interesante es que el exponente de la ley crece linelmente con la profundidad del juego, es decir, en la apertura la mayoría de los jugadores eligen entre muy pocas posibilidades, mientras que en el medio juego el número de posibilidades se diversifica extremadamente. 

Damian H. Zanette, «Zipf’s law and city sizes: A short tutorial review on multiplicative processes in urban growth,» ArXiv 2007, utilizan el modelo de Simon (basado en procesos estocásticos multiplicativos) para «predecir» la ley de la potencia en la distribución del tamaño de ciudades (276 áreas metropolitanas de EEUU y su tamaño censal en el 2000). Los resultados no son excesivamente buenos y los autores indican que se necesitan ciertas extensiones para conseguir mejorarlos.

Finalmente, Zike Zhang et al. «Empirical analysis on a keyword-based semantic system,» ArXiv, 2008, estudia las palabras clave en artículos científicos «demostrando empíricamente» que su distribución estadística (al menos en la revista Proceedings of the National Academy of Science of the United States of America, PNAS) sigue la ley de Zipf con exponente 0.86. Los autores suponen que ello ocurre en todos los casos.

En este blog, todavía pequeño para un análisis estadístico riguroso, la ley de Zipf va camino de cumplirse… ya comentaremos algo más adelante.