La bibliometría está repleta de conjeturas verificadas sólo con pequeños conjuntos de datos. Tras analizar las publicaciones de 35.136 investigadores se confirma la fuerte correlación entre el índice h y el número total de citas recibidas C, siguiendo la ley de potencias h ~ C0,42, predicha por el propio Hirsch, inventor del índice h, que la verificó con un pequeño conjunto de datos. También se correlaciona con el número de publicaciones N, aunque con menor significación. La correlación entre estos tres índices bibliométricos es h ~ C0,41 N0,18. Los autores del nuevo estudio han partido de las citas de los artículos de 89.786 científicos con “profile” en Google Scholar (datos recogidos entre el 29 de junio al 4 de julio de 2012), asociados a 67.648 palabras clave diferentes; entre todos ellos han seleccionado los autores que tienen al menos 20 artículos y una carrera con más de 5 años de duración (reduciendo el número a 35.136 científicos). Esta validación a gran escala ha sido desarrollada por Filippo Radicchi, Claudio Castellano, “Analysis of bibliometric indicators for individual scholars in a large data set,” arXiv:1304.1267, 04 Apr 2013. Los aficionados a la bibliometría dispuestos a realizar otros análisis sobre los mismos datos pueden descargar dichos datos en esta página web de los autores.
Archivo de la etiqueta: Estadística
Ellis y You actualizan su estimación LHC+Tevatron+LEP para los acoplamientos del Higgs
Cualquiera puede hacerlo, pero si lo hace John Ellis parece que tiene más valor. Combinar los datos del LHC (ATLAS+CMS), Tevatron (CDF+DZero) y LEP sobre la búsqueda del Higgs es muy difícil si se hace con rigor (colisión a colisión), pero muy fácil si se hace usando el teorema central del límite. El resultado será parecido (pues la estadística nunca miente). El análisis de Ellis y You conduce a un acoplo (combinado) para el Higgs de μ = 1,02 ± 0,12 (el valor para el Higgs del modelo estándar es μ = 1). En el plano (a,c), donde a caracteriza el acoplamiento a los bosones vectoriales y c a los fermiones, se obtiene el mejor ajuste para a = 1,03 ± 0,06 y c = 0,84 ± 0,15 (el modelo estándar predice a=1 y c=1); separando el acoplo a los fotone (cγ) del acoplo a otros bosones vectoriales (cg) se obtiene cγ = 1,18 ± 0,12 y cg = 0,88 ± 0,11. Estos ajustes apuntan al Higgs del modelo estándar, descartando muchas de las alternativas; el canal más responsable de este buen ajuste es, sin lugar a dudas, el canal difotónico (γγ) analizado por CMS (LHC). Los interesados en los detalles, canal a canal, pueden consultar John Ellis, Tevong You, “Updated Global Analysis of Higgs Couplings,” arXiv:1303.3879, 15 Mar 2013. Repito, muchos otros han obtenido combinaciones similares (a las que yo llamo “oficiosas” aunque el término no guste a algunos de vosotros; quizás habría que llamarlas “estadísticas” o con más rigor “basadas en el teorema central del límite”), pero siendo Ellis el Erdös de la física de partículas, creo que muchos agradecerán que haya destacado su contribución.
¿Te apetece comparar tu universidad (si es pública y española) con las demás?
El grupo de investigación CTS-261 de la Universidad de Granada publica todos los años un ranking en producción y productividad en investigación de las universidades públicas españolas (Ranking 2011, Ranking 2010, Ranking 2009, Ranking 2008). También publica la relación de la productividad y eficiencia en investigación con la financiación de las comunidades autónomas españolas (Relación 2010, Relación 2009). ¿Se puede comparar la universidad europea con la del resto del mundo? Se está desarrollando un nuevo ranking específico para la UE, porque los patrones marcados por EEUU no son adecuados y la comparación está muy sesgada a favorecer a estos últimos.
¿Cuál es el rendimiento en el doctorado de los becarios en España? Diferencias entre CSIC y universidades públicas, entre los becarios FPU y FPI, y en función de la normativa de cada universidad. La normativa del doctorado en España ha pegado muchos bandazos y palos de ciego en los últimos años, culminando con las actuales Escuelas de Doctorado, cuya implantación no es sencilla. La Mención de Calidad de los programas de doctorado no es una buena Mención de Excelencia. El Doctorado en la UE necesita una normativa común que permita una convergencia real. Y no solo el doctorado, sino también la selección del profesora, en España centrada en la acreditación y el índice impacto del ISI WoS como índice bibliométrico.
La Universidad de Málaga, a la que estoy afiliado, aparece en el ranking de 2011 de producción y productividad de investigación en los siguientes puestos: Ranking por artículos en revistas JCR, producción total 21/48 y productividad (producción/profesor) 41/48; ranking por tramos de investigación (sexenios), producción total 17/48 y productividad (sexenios/profesor) 30/48; ranking por proyectos I+D, producción total 17/48 y productividad (proyectos/profesor) 32/48; ranking por tesis doctorales, producción total 20/48 y productividad 37/48; ranking por becas FPU, producción total 10/48 y productividad 12/48; ranking por doctorados con mención hacia la excelencia, producción total 29/48 y productividad 45/48; ranking por patentes, producción total 12/48 y productividad 17/48; y ranking global de producción y productividad en investigación, producción total 18/48 y productividad 37/48. A la vista de estos datos se puede afirmar que la Universidad de Málaga es grande, pero poco productiva.
Además, “la Universidad de Málaga en todas las ediciones ha ocupado puestos similares en productividad (39, 38, 38, 37). Ha mantenido una regularidad en su investigación, que no es sinónimo de excelencia, por supuesto y que, por tanto, plantea la necesidad de mayores esfuerzos para mejorar sus puestos en las siguientes ediciones del ranking.”
Os copio un extracto de las conclusiones generales del ranking (y os recomiendo su lectura para más detalles):
“Las diez universidades más productivas en investigación en España en el año 2011 fueron las siguientes: Pompeu Fabra, Pablo de Olavide, Rovira i Virgili, Miguel Hernández, Autónoma de Barcelona, Politécnica de Valencia, Politécnica de Cataluña, Barcelona, Carlos III y Autónoma de Madrid. Las primeras universidades en este ranking (Pompeu Fabra, Pablo de Olavide y Rovira i Virgili) ocupan los puestos 28, 38 y 27, respectivamente, en el ranking de producción total. En el lado contrario, la Universidad Complutense de Madrid, por ejemplo, ocupa el segundo puesto en producción y el 29 en productividad. Por tanto, existen grandes diferencias en cuanto a los recursos humanos con los que cuentan las universidades españolas, pero éstas también difieren, y mucho, en la productividad de esos recursos humanos.”
“Al ser ya la cuarta edición de este ranking se puede observar la evolución de las universidades públicas españolas y la tendencia que éstas siguen en cuanto a la investigación que se realiza en ellas. Comparando los datos de los años 2008, 2009, 2010 y 2011 se pueden extraer varias conclusiones. En primer lugar, que hay diez universidades (Pompeu Fabra, Pablo de Olavide, Rovira i Virgili, Miguel Hernández, Autónoma de Barcelona, Politécnica de Valencia, Politécnica de Cataluña, Barcelona, Carlos III y Autónoma de Madrid) que en todas las ediciones, y en diferente orden, siempre han ocupado los diez primeros puestos de la clasificación elaborada. Siempre han mantenido un elevado nivel de productividad.”
Más información leyendo el artículo que publica el ranking…
“La mejora de esas posiciones, de la visibilidad internacional de la ciencia que se hace en España y de la productividad de las universidades españolas, debería ser uno de los objetivos fundamentales de los gobiernos de las instituciones educativas, de las comunidades autónomas y del gobierno central. Sin embargo, para ello se requiere financiación y no parece que ésta vaya a aumentar en el contexto de crisis económica actual. Esto es un problema y un desafío para el sistema universitario español, integrado en el EEES y, por tanto, dentro de un contexto competitivo, en el que las mejores universidades atraerán mejores alumnos e investigadores y conseguirán más financiación, relegando a un segundo plano a las que se estanquen.”
“Twin Peaks” y la búsqueda del bosón de Higgs
Los dos picos gemelos de las montañas de Kennesaw, ciudad del Condado de Cobb, en el estado de Georgia, EEUU, aparecen en el escudo de su universidad, pero no tienen nada que ver con el título de la serie de televisión “Twin Peaks“ creada por David Lynch y Mark Frost, ambientada en el noreste del estado de Washington. Los más jóvenes no recordarán que fue emitida por Telecinco en la temporada 1990/91, batiendo récords de audiencia. “Twin Peaks” volvió a mi memoria gracias a la entrada de Jester (Adam Falkowski), “Twin Peaks in ATLAS,” Résonaances 13 Dec 2012, y porque hay algo que tengo que decir, que ya dije en vivo y en directo en ”Mi conferencia sobre el “Bosón de Higgs” en los X Encuentros con la Ciencia, Málaga,” 19 diciembre 2012, pero que creo que no he dicho de forma explícita en este blog.
Dije en mi conferencia que hay que tener cuidado con el número de febrero de Investigación y Ciencia, donde quizás aparezca traducida la noticia de Michael Moyer, “Two Higgs Bosons? CERN Scientists Revisit Large Hadron Collider Particle Data,” Scientific American, 15 Dec 2012 (“Have Scientists Found 2 Different Higgs Bosons?,” SciAm Blogs, Dec. 14, 2012). En realidad, el autor ha cambiado el texto original de su noticia, tras las múltiples críticas, citando al propio de Jester y a Dorigo, aclarando que ATLAS (LHC, CERN) no ha observado dos bosones de Higgs, se trata de una fluctuación estadística. Muchos ya habréis leído a Tommaso Dorigo, “ATLAS Higgs Results: One Or Two Higgs?,” AQDS, Dec 14th 2012. Sin embargo, como destaca Matt Strassler, “Two Higgs Bosons? No Evidence for That,” OPS Dec 17, 2012, Moyer debería haber cambiado el título de la noticia y evitar sembrar la duda en plan sensacionalista. No creo que merezca la pena que los editores de Investigación y Ciencia incluyan la noticia en su próximo número. Hay noticias en la web de SciAm que es mejor omitir en IyC. En su rectificación, Moyer debería haber mencionado que CMS (LHC, CERN) no observa los dos picos. Pero quien sabe, quizás su intención sea que gente como yo le citemos en nuestros blogs.
Los artículos publicados en una revista tras ser rechazados en otra reciben un mayor número de citas

Los 1.841 nodos son revistas y los enlaces indican el flujo de manuscritos reenviados de una revista a otra tras ser rechazados. Science, Nature y PNAS se encuentran en el centro. (C) Science.
La historia de cada artículo, desde que es enviado por primera vez a una revista, hasta que acaba siendo publicado en ésta o en otra, está envuelta en un halo de misterio debido al anonimato implícito en la revisión por pares. Sin embargo, dicha historia influye en el impacto (número de citas) que tendrá una vez publicado, según un estudio bibliométrico publicado en Science. Una encuesta realizada por e-mail a unos 200.000 autores principales de artículos de Biología publicados en 923 revistas, a la que solo contestaron 80.748, ha descubierto que el número de citas a los artículos que fueron publicados en una revista tras haber sido rechazados en otra es mayor en promedio que el de los artículos que fueron aceptados en un primer envío. Más aún, muchos de esos artículos han sido citados desde la revista en la que originalmente fueron rechazados. Un resultado sorprendente que indica que o bien los artículos han mejorado tras la primera revisión gracias a los comentarios de la revisión por pares, o bien los artículos que van en contra del statu quo tienden a ser rechazados con más frecuencia, pero acaban causando un mayor revuelo tras ser publicados y con él acaban recibiendo un mayor número de citas (“En ciencia no hay mala publicidad: Los artículos más criticados alcanzan un mayor impacto,” 26 sep. 2012). El artículo técnico es V. Calcagno, E. Demoinet, K. Gollner, L. Guidi, D. Ruths, C. de Mazancourt, “Flows of Research Manuscripts Among Scientific Journals Reveal Hidden Submission Patterns,” Science Express, Published Online October 11 2012 [podcast inteview to Vincent Calcagno].

Obviamente, el análisis estadístico realizado muestra que los datos tienen mucha dispersión y que el beneficio en número de citas obtenido en los artículos reenviados es pequeño (aunque el valor p < 0,0001). Así que cuidado con extrapolar las conclusiones de este tipo de estudios (sobre todo se lo digo a los jóvenes). Además, este beneficio se obtiene solo si el artículo es reenviado a una revista dentro del grupo de revistas de temática afín (los autores han usado las categorías del ISI Web of Science); tratar de evitar que nos toquen los mismos revisores enviando el artículo a una revista con una temática colateral conduce a un menor impacto.
En resumen, un nuevo artículo que viene a confirmar lo que yo siempre le digo a mis estudiantes de doctorado: que te rechacen un artículo no es malo, más aún, puede llegar a ser incluso bueno. Por supuesto, yo siempre se lo digo en relación al valor que pueden llegar a tener los comentarios de los revisores en las mejoras que se puedan introducir en el artículo. Nunca imaginé que además pudiera estar correlacionado con un mayor impacto. Los estudios bibliométricos son cada día más sorprendentes.
En ciencia no hay mala publicidad: Los artículos más criticados alcanzan un mayor impacto

Muchos científicos odian que se critique su trabajo, pues piensan que ello conlleva un bajo impacto y bajo número de citas. Sin embargo, los análisis bibliométricos afirman todo lo contrario. Filippo Radicchi (Universitat Rovira i Virgili) ha estudiado el número de citas de los artículos en 13 revistas importantes y ha descubierto que los más criticados (con comentarios enviados al editor que se publican en la propia revista) son más citados en media; además, entre los artículos más citados de cualquier revista siempre hay un alto porcentaje de artículos que han sido “comentados” (o criticados). El dicho popular “Que hablen de mí, aunque sea mal” adquiere todo su sentido en el mundo de las publicaciones científicas. Más aún, el estudio de Radicchi apoya la hipótesis de que las disputas y críticas entre científicos son claves para la producción y difusión del conocimiento, y para el avance de la ciencia. El artículo técnico es Filippo Radicchi (Universitat Rovira i Virgili, Tarragona, Spain), ”In science “there is no bad publicity”: Papers criticized in technical comments have high scientic impact,” arXiv:1209.4997, Subm. 22 Sep 2012.
La controversia científica es parte coyuntural del progreso científico. Grandes avances científicos del pasado, como el modelo heliocéntrico de Copérnico, la teoría de la evolución de Darwin o la deriva de los continentes de Wegener, han estado rodeados de disputas, críticas y controversias de todo tipo. Por supuesto, muchas investigaciones controvertidas acaban en el olvido o siendo rechazadas, como la fusión fría o la memoria del agua. Aún así, lo que parece claro de la historia de la ciencia es que los cambios revolucionarios suelen ser polémicos y encuentran cierta resistencia antes de ser aceptados.

Fracción de artículos comentados que forman parte del 5% de los artículos más citados (círculos rellenos). Se compara con las predicciones estadísticas de un modelo que no diferencia entre artículos comentados y no comentados.
Los comentarios o cartas al editor en muchas revistas son el medio por el cual los científicas demuestran sus críticas al trabajo publicado por otros. Estos comentarios son considerados por los editores de las revistas como cualquier otro artículo y pasan por una revisión por pares. Hay comentarios positivos que aclaran o complementan el artículo comentado, pero la mayoría suelen ser críticas a las conclusiones o a la metodología utilizada. Normalmente, estos comentarios críticos suelen ir acompañados de una respuesta por parte de los autores (una deferencia muy habitual entre todos los editores). Por tanto, una manera automático de detectar comentarios críticos es considerar los comentarios que van acompañados de una respuesta de los autores. Utilizando esta regla, Radicchi ha estudiado el número de citas recibidas en la base de datos del Web of Science por los artículos de 13 revistas que han recibido “críticas.” Por ejemplo, en Physical Review Letters, el artículo más citado (más de 20.000 citas) fue un artículo criticado. Solo el 3% de los artículos han sido comentados, pero los 5 artículos más comentados están entre los 16 más citados de esta revista. Lo mismo pasa en las demás 12 revistas estudiadas (Nature, Science, Phys. Rev., etc.), los 5 artículos más comentados siempre están en el top de los más citados.
Por supuesto, el estudio de Radicchi tiene muchas limitaciones, entre ellas, que no se incluyen todas las posibles críticas a un artículo, solo las publicadas como comentarios (con respuesta de los autores) en la propia revista. Un análisis más riguroso requeriría estudiar qué artículos que citan al artículo lo hacen criticando sus conclusiones. Radicchi tiene mucho trabajo por delante investigando en dicha línea.
La dinámica de la moda de los nombres que los papás les ponemos a nuestros bebés

El día que llevas a tu hijo a la guardería descubres que hay varios niños con su mismo nombre. Aunque hay nombres de “toda la vida,” también hay nombres de moda que aparecen, se ponen de moda y alcanzan una cúspide de popularidad, para luego casi desaparecer. No solo pasa en España. Damian H. Zanette ha estudiado la evolución de los nombres que se le han puesto a los recién nacidos en Quebec, provincia de Canadá, durante el siglo XX. Dos terceras partes de los 200 nombres más comunes han sufrido este proceso; siendo poco comunes, se pusieron de moda durante unas décadas, para después volver a una frecuencia similar a la inicial. La figura muestra varios ejemplos, como Diane, Marcel, o Yvonne. Para explicar este comportamiento, Zanette ha desarrollado un modelo matemático de biología de poblaciones basado en la idea de que unos padres imitan a otros a la hora de poner nombre a sus retoños, hasta que se saturan de oír dicho nombre y deja de ser usado para ser substituido por otro. El modelo ajusta muy bien los datos experimentales. El artículo técnico es Damian H. Zanette, “Dynamics of fashion: The case of given names,” arXiv:1208.0576, Subm. 2 Aug 2012.
El modelo matemático considera la interacción entre las personas con cierto nombre (N) y el número de parejas que van a ponerle nombre a sus hijos recién nacidos (P). La tasa de crecimiento del primer grupo (N) está dada por la diferencia entre su tasa de natalidad, que es proporcional al tamaño del segundo grupo (P), y su tasa de mortalidad. El tamaño del segundo grupo (P) debe superar un determinado umbral para que actúe el proceso de imitación (“le pongo dicho nombre porque está de moda”), a partir del cual este grupo crece a un ritmo proporcional a su tamaño. Esta tasa de crecimiento, sin embargo, disminuye a medida que el primer grupo (N) crece; además, el segundo grupo (P) también inhibe su propio crecimiento cuando su tamaño es muy grande (“el nombre ya suena demasiado”). A partir de estas leyes de crecimiento se puede construir el modelo matemático para ambas poblaciones que, como muestra la figura que abre esta entrada, conduce a un ajuste bastante bueno de los datos experimentales recabados por Zanette en Quebec.
Lo interesante del artículo es que la curva teórica es fácil de recordar y reconocer tras un vista rápida al histórico de estadísticas de nombres que publica, por ejemplo, el INE. La próxima vez que estés en la tesitura de ponerle un nombre a tu bebé, ojea estas estadísticas con la curva en mente y comprueba si el nombre que te gusta está de moda, va a estar de moda, o dejará de estar de moda, actuando en consecuencia.
Por qué cinco sigmas en un solo experimento no son suficientes para un descubrimiento

Muy sencillo, porque en el pasado ha habido muchos falsos descubrimientos cuando se han observado cinco o más sigmas en un solo experimento. Como mínimo es necesario que dos experimentos independientes observen lo mismo con al menos cinco sigmas (una separación de cinco desviaciones típicas entre los datos medidos y el valor medio esperado, algo que ocurre al azar una vez en cada tres millones de ocasiones). Todos recordáis el caso más sonado y reciente, la observación con 6 sigmas de neutrinos muónicos superlumínicos en OPERA (por cierto, la última versión del artículo, ya sin neutrinos superlumínicos, se ha publicado el 12 de julio en arXiv). La figura que abre esta entrada también es famosa, el falso descubrimiento de los pentaquarks con 5,8 sigmas en la Colaboración CLAS (artículo original publicado en PRL, arXiv:hep-ex/0307018). Tras acumular cinco veces más datos de colisiones en la propia Colaboración CLAS, el pico desapareció, como muestra la figura de abajo (el histograma con línea continua son los nuevos datos y los puntos gruesos son los datos antiguos); este trabajo también apareció en PRL, arXiv:hep-ex/0603028. Más aún, la propia colaboración CLAS publicó un artículo reivindicando que además de las cinco sigmas se debía exigir un análisis bayesiano de los datos, pues dicho análisis hubiera aclarado que el pico de 2003 en realidad era una fluctuación estadística en los datos originales.

El análisis estadístico bayesiano de los datos de los experimentos ha entrado hace menos de una década en la física de partículas. El análisis bayesiano (por Thomas Bayes, s. XVIII) se diferencia del análisis frecuentista en cómo se interpretan las probabilidades de que se dé el resultado observado en un experimento. El análisis bayesiano calcula las probabilidades a posteriori P(A∣B) a partir de las probabilidades a priori, P(A) y P(B), utilizando las probabilidades condicionadas P(B∣A) gracias al teorema de Bayes P(A∣B) = P(B∣A) P(A)/P(B). Lo más importante de este enfoque es algo muy obvio, pero también muy fácil de olvidar, que P(A∣B) no es igual que P(B∣A). Por ejemplo, la probabilidad de estar embarazada, asumiendo que se es mujer, no es lo mismo que la probabilidad de ser mujer, asumiendo que se está embarazada. Obvio. Pero, créeme, fácil de olvidar (yo suspendía a muchos alumnos por este tipo de errores de bulto cuando impartía un asignatura llamada “Métodos Estadísticos,” pero de eso ya hace 15 años).
Estas cosas tan obvias son tan fáciles de olvidar que hasta yo mismo he caído en la trampa varias en este blog (sobre todo cuando escribo entradas rápidas en las que pienso poco). Por ejemplo, si la probabilidad de obtener ciertos datos observados bajo la hipótesis de que no existe el bosón de Higgs en un cierto rango de masas es de solo el 5% (es decir, 95% CL), es incorrecto deducir a partir de estos datos que la probabilidad de que no exista un Higgs con una masa en dicho rango sea de solo el 5%. Lo confieso, en este fallo yo he caído yo varias ocasiones en este blog. Por eso me ha gustado el artículo de Louis Lyons, “Discovery or fluke: statistics in particle physics,” Physics Today 65: 45-51, July 2012, en el que basaré esta entrada.
En el enfoque bayesiano tenemos el “valor de un parámetro” (sea la masa del Higgs) y una serie de “datos observados” (sea el número de eventos tipo Higgs observados dividido entre el número de dichos eventos predichos bajo la hipótesis de que no exista el Higgs), con lo que el teorema de Bayes afirma que P(param|datos) ∝ P(datos|param) × P(param), siendo P(param) la probabilidad bayesiana a priori, que condensa todo lo que sabemos antes de realizar la observación sobre el resultado esperado (es decir, lo que predice el modelo estándar usando los valores de sus parámetros más recientes disponibles). Se llama función de verosimilitud P(datos|param) a la probabilidad de observar los datos si el parámetro tiene un valor dado. Finalmente, a P(param|datos) se le llama probabilidad bayesiana a posteriori, que corresponde al nuevo “conocimiento” que obtenemos gracias a los datos observados en el experimento. Esta probabilidad es la que se usa para calcular los intervalos de confianza, por ejemplo, al 68% CL o al 95% CL.
La estadística no es fácil e interpretar sus resultados es todo un arte (cuando yo impartía clases de esta materia mi libro de cabecera era “The Art of Probability for Scientists and Engineers,” de Richard W. Hamming, acompañado de los dos volúmenes de William Feller, claro). En la física de partículas lo más complicado es determinar las distribuciones de probabilidad a priori, lo que sabemos sobre las predicciones del modelo estándar para las colisiones observadas en ciertos detectores muy concretos. Porque puede parecer una tontería pero conocer hasta el último detalle de los detectores es fundamental para saber qué podrán observar ante un evento (colisión) concreta. En ciertos canales de búsqueda del Higgs donde el conocimiento de los detectores no es lo suficientemente bueno (porque no se han podido estudiar lo suficiente mediante rayos cósmicos en los últimos años y se requiere acumular más colisiones y experiencia), las probabilidades a priori deben de tener muy en cuenta este desconocimiento.

La técnica estadística fundamental en física de partículas es el contraste de hipótesis. Hay que decidir si los datos son compatibles con la hipótesis nula H0 (no hay ninguna partícula nueva en los datos, solo “ruido” de fondo) o con la hipótesis positiva H1 (hay una partícula nueva con ciertas propiedades, hay una “señal” además del “ruido” de fondo). Para contrastar ambas hipótesis hay que utilizar un parámetro observable (t en la figura). Cada hipótesis se observa como una distribución estadística (gaussiana en esta figura, pero no tiene porqué serlo). Conforme se acumulan datos, si la partícula buscada existe, ambas distribuciones se separarán un cierto número de desviaciones típicas (sigmas). En la figura se muestra una separación de tres sigmas entre la hipótesis positiva y la nula. Para un valor dado del parámetro, sea t’, se definen dos probabilidades p0 y p1 que corresponden a la fracción de área de la distribución correspondiente a cada hipótesis (como muestra la figura en los sombreados rojo y gris). Se proclama un descubrimiento cuando la probabilidad p0 está por debajo de un cierto valor (nivel) predefinido α. Igualmente, se excluye la hipótesis H1 si la probabilidad p1 está por debajo de un cierto valor (nivel) predefinido γ. Cuando para el valor t’ no se cumplen ninguno de los dos casos, no se puede tomar ninguna decisión (ni exclusión ni descubrimiento) y en física de partículas se dice que la variable no es suficientemente sensible aún. El valor α por consenso es 3 × 10−7, que corresponde a una cola gaussiana de 5 sigmas (5 σ) para la distribución de la hipótesis H0. El valor de γ por consenso es de solo el 5% (0,05). Por ello, quizás habría que hablar de valor “desfavorecido” en lugar de usar el término más habitual de valor “excluído.” Muchas veces, para evitar excluir demasiado pronto, se utiliza el cociente p1/(1-p0) en lugar de p1 para determinar la exclusión.
Una cuestión que le surgirá al lector inquieto es el problema de especificar los parámetros de la hipótesis positiva H1, parámetros que aún no conocemos (por ejemplo, en el caso del Higgs su masa). En ese caso también tenemos que tener en cuenta el efecto de “mirar a todos lados” (“look elsewhere” effect o LEE). Si solo hay “ruido” (hipótesis H0) en un intervalo de valores para el parámetro que sea grande es posible que haya fluctuaciones aleatorias importantes que podrían falsear el contraste de la hipótesis y hacernos pensar que hay señal donde no la hay. Una fluctuación local a 4 σ es muy probable en un intervalo muy grande, por lo que hay que normalizar la significación estadística de las hipótesis teniendo en cuenta este efecto. Cuando la evidencia de exclusión en dicho intervalo grande es alta (de varias sigmas), se puede reducir el tamaño de dicho intervalo. Como siempre en el arte de la estadística, la interpretación de este proceso está sujeto a costumbres que van siendo adoptadas, ganando cierto consenso, hasta que se convierten en una ley de facto, como la que afirma que un nuevo descubrimiento requiere 5 sigmas en al menos dos experimentos independientes.
¿El bosón de Higgs descubierto en el LHC es el predicho por el modelo estándar?

La combinación de todos los resultados experimentales disponibles, tanto en el Tevatrón (CDF+DZero) como en el LHC (Atlas+CMS), indica que el bosón escalar con una masa de 125,5 GeV descubierto el 4 de julio es el bosón de Higgs del modelo estándar. Si no lo es y se trata de un “impostor” (yo suelo llamarle un “primo”), la diferencia entre ambos es muy pequeña. La figura que abre esta entrada muestra que el descubrimiento de la nueva partícula tiene 6,9 sigmas de confianza estadística (la banda gris marca ±1 σ). Además, el cociente entre la tasa de producción de la nueva partícula y la tasa de producción predicha por el modelo estándar es de solo μ = 1,02 ± 0,15, lo que implica un gran acuerdo con el valor predicho μ = 1. El mejor ajuste combinado para la masa del Higgs es m = 125,5 ± 0,54 GeV, como muestra la figura de abajo.

En resumen, el ajuste entre la nueva partícula y el bosón de Higgs es muy bueno, luego mientras nadie demuestre lo contrario, se ha descubierto el bosón de Higgs del modelo estándar. Este análisis y las figuras anteriores aparecen en Pier Paolo Giardino, Kristjan Kannike, Martti Raidal, Alessandro Strumia, “Is the resonance at 125 GeV the Higgs boson?,” arXiv:1207.1347, Submitted on 5 Jul 2012.

Prácticamente la misma conclusión nos ofrecen John Ellis, Tevong You, “Global Analysis of the Higgs Candidate with Mass ~125 GeV,” arXiv:1207.1693, Submitted on 6 Jul 2012, que han utilizado su modelo genérico basado en dos parámetros (a,c). Su artículo además nos presenta figuras similares a ésta solo para el Tevatrón, solo CMS y solo ATLAS, pero las más precisas son las de CMS 7+8, muy próximas a la combinación final.

Estas figuras corresponden al ajuste de los datos experimentales con otro modelo fenomenológico que usa cuatro parámetros libres (en lugar de dos como el modelo anterior). Obviamente, ahora hay más juego, pero los resultados siguen siendo compatibles (o consistentes) con la predicción del modelo estándar. Nos lo presentan Dean Carmi, Adam Falkowski, Eric Kuflik, Tomer Volansky, Jure Zupan, “Higgs After the Discovery: A Status Report,” arXiv:1207.1718, Submitted on 6 Jul 2012, donde los físicos podrán encontrar los detalles de los parámetros usados.
Por supuesto, la combinación oficiosa de Philip Gibbs también nos indica que estamos ante el bosón de Higgs predicho por el modelo estándar [ver esto, esto y esto]. La situación está tan clara que hasta Matt Strassler lo tiene claro, como nos cuenta en “Higgs Discovery: Is it a Higgs?,” OPS, July 20, 2012, y “Higgs Discovery: Is it a Simplest Higgs?,” OPS, July 11, 2012.
En resumen, por mucho que nos gustaría que no fuera el bosón de Higgs predicho sino un “primo” (o “impostor”), por ahora todo apunta a que se ha descubierto el bosón predicho por el modelo estándar a casi 3 sigmas de confianza estadística. Por supuesto, las combinaciones indicadas en este entrada son oficiosas, incluso la de John Ellis y Tevong You. La ratificación a unas 5 sigmas de que realmente estamos ante EL bosón de Higgs no llegará hasta diciembre de 2012 (si, crucemos los dedos, no hay problemas con el LHC).
PS: Uno de vosotros me ha recordado que no he incluido ninguna referencia a los trabajos de José R. Espinosa (ICREA, Barcelona). Hay muchos otros, pero bueno, siendo español, también los incluyo.

En su artículo J. R. Espinosa, C. Grojean, M. Muhlleitner, M. Trott, “First Glimpses at Higgs’ face,” arXiv:1207.1717, Submitted on 6 Jul 2012, además de ajustar con el modelo efectivo (a,c) los datos de Tevatrón y LHC, también incluye los datos de precisión eletrodébil (EWPD). Como resultado, el ajuste entre los datos y la hipótesis de un Higgs del modelo estándar es de unas 2 sigmas. No es mucho.
Qué significan cinco sigmas para el descubrimiento del bosón de Higgs

Casi todos los lectores de este blog saben que cuando los indicios sobre la existencia de un bosón de Higgs alcancen cinco sigmas se podrá afirmar que ha sido descubierto. Sin embargo, lo que casi todos ignoran es que la frase anterior, escrita como tal, es mentira. Qué significan “cinco sigmas” a secas, nada en absoluto. Hay que clarificar los parámetros de la hipótesis, es decir, en el caso de la existencia del bosón de Higgs hay que especificar en que intervalo de masas se han alcanzado cinco sigmas de significación estadística. Este intervalo de masas es diferente en el Tevatrón, que buscó el Higgs en el intervalo entre 100 y 200 GeV, y en el LHC, donde además depende de la energía de las colisiones, ya que a 7 TeV c.m. (año 2011) se buscó el Higgs en el intervalo entre 100 y 600 GeV, mientras que a 8 TeV c.m. (año 2012) se está buscando entre 100 y 800 GeV.
¿Por qué no buscar el Higgs donde creemos que está, digamos entre 115 y 135 GeV? Porque desde un punto de vista estadístico se estaría sesgando la búsqueda, con lo que fluctuaciones estadísticas muy probables entre 100 y 800 GeV, parecerían muy excepcionales en un intervalo tan pequeño. Las cinco sigmas de significación estadística deben ser globales si queremos ser rigurosos. Cinco sigmas de significación estadística local solo son del agrado de los blogueros a los que nos encanta propagar rumores con poco fundamento (estadístico, valga la redundancia).
¿Cuál es el intervalo de masas más adecuado para estudiar la hipótesis de la existencia del Higgs? La pregunta del millón de dólares no tiene una respuesta clara. En los anuncios oficiales de la dirección del CERN (así ha sido durante 2011) se ha utilizado el intervalo de masas completo utilizado en la búsqueda (recuerda, entre 100 y 600 GeV en 2011, intervalo que llegará en 2012 hasta los 800 GeV). ¿Se trata de la decisión más adecuada? No importa, se trata de la decisión más conservadora y la que más información aporta a los físicos, pues cinco sigmas en un intervalo tan grande no solo implica un descubrimiento, sino también la ausencia de otros primos del Higgs (reafirmando de forma indirecta que se trata del único bosón de Higgs predicho por el modelo estándar). ¿Por qué no usar en su lugar el mismo intervalo de masas utilizado por el Tevatrón? Pues porque no es necesario. A finales de año, incluso en el intervalo más grande disponible se podrá proclamar un descubrimiento a cinco sigmas, para qué molestarse entonces en reducir dicho intervalo antes de tiempo.
¿Qué significa todo esto en relación al anuncio del próximo miércoles 4 de julio? El anuncio oficial de diciembre de 2011 fue muy pesimista y no llegó ni a dos sigmas de significación estadística global en todo el intervalo entre 110 y 600 GeV para los dos grandes experimentos del CERN (en concreto, 1,5 sigmas en CMS, aunque alcanzó 2,2 sigmas en ATLAS). Si pensamos que es más razonable un intervalo pequeño alrededor de 125 GeV, la significación crece hasta 3,6 sigmas en ATLAS y hasta 2,6 sigmas en CMS. Y si además combinamos estos resultados con los del Tevatrón y los de LEP2, podemos estar hablando de unas 4 sigmas (solo con los datos disponibles a fecha de diciembre de 2011). Esto es casi un descubrimiento, por eso muchos blogs y yo mismo creemos que era una señal muy firme del Higgs (aunque dicha señal apunta a un primo del Higgs). Por supuesto, esta significación local es muy discutible, pues implica un sesgo (busco donde sé que se encuentra y asumiendo que se encuentra allí). Es mucho más fiable una significación global en todo el intevalo de búsqueda en el que puedo buscar, lo que oficialmente hace la dirección del CERN para no mojarse las manos.

Imagina que el próximo miércoles, 4 de julio, los dos grandes experimentos del LHC, llamados ATLAS y CMS, ofrecen indicios sobre la existencia del Higgs a cuatro sigmas (de confianza estadística para la hipótesis de que el Higgs existe en un intervalo entre 100 y 600 GeV). Combinando ambos indicios se superarán las cinco sigmas, lo que significa que se podría proclamar oficialmente un descubrimiento. ¿La dirección del CERN proclamará un descubrimiento oficial del Higgs? En mi opinión no, no lo harán. Sin realizar la combinación de forma rigurosa, no será utilizada de forma oficial.
¿Deberían combinarse los datos de ATLAS y CMS antes de publicarlos por separado? Quizás sí, es una cuestión de opiniones, pero no se hará. No se hará porque no es necesario hacerlo. En diciembre de 2012, ambos experimentos tendrán indicios sobre el Higgs a más de cinco sigmas y por tanto ambos proclamarán un descubrimiento. La combinación de sus colisiones no se realizará hasta 2013 (quizás no se publique hasta el verano de 2013).
¿Por qué no se acelera todo el proceso? Porque no merece la pena hacerlo. El trabajo teórico de Higgs tiene casi 50 años, el LHC se propuso hace unos 30 años, su diseño y construcción ha costado unos 20 años, y solo llevamos un año y medio tomando datos. ¡Solo 18 meses! La búsqueda del Higgs en el LHC acaba de empezar y confirmar de forma definitiva que se trata de la partícula predicha por el modelo estándar costará unos 20 años. ¿Por qué van a tener prisa las autoridades del CERN? ¿A quién le importa lo que algunos digan? Las cosas son así y así seguirán, ¿por qué han de cambiar?
Como nos cuenta Aidan Randle-Conde, “Why we shouldn’t combine Higgs searches across experiments,” USLHC, Quantum Diaries, June 28th 2012, la razón por la que dos experimentos están buscando el Higgs en el LHC es porque si uno de ellos proclama un descubrimiento, no estará confirmado hasta que otro lo confirme (o lo refute). Por eso, muchos experimentos se diseñan a pares, ATLAS y CMS en el LHC, CDF y DZero en el Tevatrón, UA1 y UA2 en el SPS, Belle y BaBar, etc. Combinar la información de dos experimentos en competencia solo tiene sentido una vez se ha proclamado el descubrimiento por separado en cada uno de ellos. En el Tevatrón nos hemos acostumbrado a que las combinaciones de CDF y DZero se publicaran muy poco después de su publicación por separado, quizás por la presión del LHC, en un intento desesperado por ser los primeros, pero no podemos considerar que esa costumbre excepcional deba ser la regla a seguir; el Tevatrón solo debe ser considerado como la excepción que confirma la regla: solo se combinan los datos de experimentos en competencia mutua cuando ambos han proclamado un descubrimiento. En mi opinión, así se hará en el LHC del CERN.
Lo de siempre, aunque no tenga nada que ver. Que te salgan 5 caras seguidas no significa que la moneda esté trucada y tenga dos caras. Puede que sí, puede que no. Pero que te salgan 50 caras seguidas apunta de forma muy firme a ello. Mirar solo 5 tiradas de 10 monedas da poca información sobre cuáles están trucadas y cuales no; mirar 50 tiradas de una sola moneda da mucha más información sobre si está trucada o no. Pero las sigmas se pueden calcular tanto en un caso como en otro. No es lo mismo 5 sigmas en el primer caso, que 5 sigmas en el otro.
Por todo ello la dirección del CERN prefiere una significación estadística global. ¿Qué harán el próximo miércoles? No creo que cambien de chaqueta en el último momento (como suelen hacer los políticos), sobre todo teniendo en cuenta que en diciembre de 2012 , salvo que ocurra una catástrofe, podrán afirmar que el Higgs existe con una significación global superior a 5 sigmas (y una local cercana a 10 sigmas en algunos canales en el intervalo de 120 a 130 GeV o similar). Por supuesto, ofrezco mi opinión, tan discutible como la de cualquiera.

Mucho hablar de sigmas, pero ¿qué son las sigmas de confianza en la validez de una hipótesis? Nos lo contó Aidan Randle-Conde, “A sigma here, a sigma there…,” Quantum Diaries, 9 May 2012. La palabra “sigma” se refiere a la desviación estándar, denotada por la letra griega del mismo nombre, σ. En el caso más sencillo podemos considerar una distribución gaussiana de probabilidad (también llamada distribución normal). Tomando una con media cero y desviación estándar igual a la unidad, diremos que un dato está desviado más de una sigma de la media si están en la zona rayada de la figura (su módulo es mayor que la unidad). La probabilidad de una fluctuación estadística sea responsable de señal a una sigma es igual a alrededor del 32%. De manera similar la probabilidad de fluctuaciones a dos, tres, cuatro y cinco sigmas más allá de la media es del 5%, 0,3%, 0,005% y 0,00005%, respectivamente.
En los experimentos de física de partículas hay dos fuentes de desviaciones respecto a las predicciones del modelo estándar, por un lado, los errores debidos a fluctuaciones estadísticas y los errores sistemáticos debidos a que calcular las predicciones por ordenador no se puede hacer de forma exacta, y por otro lado, la presencia de una nueva partícula o de una ley física que hace que la Naturaleza difiera de las predicciones teóricas. Para distinguir ambas posibilidades se utiliza el número de sigmas comparado con la probabilidad de que una fluctuación estadística explique dicho resultado. Esta probabilidad depende los parámetros de la hipótesis que se esté estudiando (por ejemplo, el intervalo de masas considerado en el caso del Higgs).

Esta figura muestra la simulación de 100 resultados de una distribución gaussiana junto a la banda de una sigma. Se pueden ver claramente fluctuaciones a dos sigmas de origen puramente estadístico. Si en lugar de 100 resultados tuviéramos 1000, habría alguna fluctuación a tres sigmas. Conforme el número de realizaciones del experimento crece, la probabilidad de observar un punto alejado de la media por un gran número de sigmas crece.
En el caso del bosón de Higgs encontrar una fluctuación estadística a tres sigmas en el intervalo de energías entre 100 y 800 GeV es mucho más probable que encontrarla en un intervalo entre 117 y 127 GeV, por ello el número de sigmas se corrige para tener en cuenta el efecto de la longitud del intervalo. Por tanto, si observamos una señal a cinco sigmas locales entre 117 y 127 GeV no significa que tengamos un descubrimiento, ya que dicha señal observada en el intervalo entre 100 y 800 GeV se reduce a menos de cuatro sigmas globales. O lo que es lo mismo, una señal a cinco sigmas globales que permite proclamar un descubrimiento es una señal a más de siete sigmas locales lo que nos hace estar muy seguros de lo que parece que estamos observando realmente está ahí.
Espero haber aclarado un poco este tema (hacerlo de forma rigurosa requiere recordar las técnicas matemáticas de contraste de hipótesis y hoy no quiero ser más matemático de la cuenta).
El sesgo sistemático en el análisis de datos de colisiones de alta energía
El análisis de los datos de las colisiones a alta energía es muy difícil y muchas veces presenta sesgos sistemáticos en los que incurren los físicos sin saberlo. Conforme pasan los años y se acumulan más colisiones, además de reducirse los intervalos de error, también se mejoran los algoritmos de análisis y se corrigen muchos de estos sesgos (repito, que al principio ni siquiera se sabía que existían y que todo el mundo pensaba que no existían). Una buena ilustración son las figuras de abajo. No importa lo que sean estas dos magnitudes asociadas a la violación de la simetría CP en la física de los quarks encanto, lo que quiero contar es otra cosa. Me interesa que mires los valores medios (el punto gordo) y los intervalos de error.
Mira la figura de la izquierda. El dato de E791 1999 es un resultado muy excepcional porque su valor medio casi coincide con el valor actual (0,866 ± 0,155), aunque su error sea enorme (0,73 ± 0,30). Muy pocas veces ocurre esto, aunque muchos físicos realizan su trabajo como si esto ocurriera siempre. El dato de FOCUS 2000 también es excepcional, pero por otra cosa, su intervalo de error no incluyen al resultado actual (0,866 no está incluido en el intervalo 3,4 ± 1,6 observado). Esto mismo ocurrió con los neutrinos superlumínicos en MINOS en 2007. Este tipo de medidas indican que hay sesgos o errores sistemáticos que no han sido tenidos en cuenta en el análisis, pero nadie lo sabe en el momento en que son publicadas. Todo el mundo confía (y sabe) que los físicos han hecho su análisis de la mejor manera posible, pero el paso del tiempo (y nuevas medidas) demuestran que no tuvieron en cuenta todos los detalles y que su análisis podría haberse realizado mejor. En el caso de MINOS 2007, la nueva reestimación de las fuentes de error ha mostrado que los intervalos de error que se publicaron estaban subestimados en casi un factor de dos. No es que la física de los neutrinos sea excepcional en este sentido (por la dificultad de detectar neutrinos), este efecto ocurre en toda la física cuando se analizan los últimos resultados experimentales con las últimas técnicas de análisis disponible. Con la figura de arriba lo he querido ilustrar con una rama de la física bien conocida, la física de las partículas que tienen quarks encanto (charm).
Otra cosa interesante que quiero destacar de la figura de arriba (izquierda) es lo que muestran los datos de CLEO 2002, Belle 2009 y LHCb 2012. Vuelve a mirar la figura. El valor más actual se encuentra cerca de uno de los extremos del intervalo de error; esto es lo habitual en física experimental, por lo que tomar el valor medio con valor fiable de la magnitud no es adecuado; siempre hay que tener en cuenta los intervalos de error y conviene considerar muy seriamente los valores extremos de dichos intervalos, en especial, los que son más compatibles con las predicciones teóricas del momento. Esto mismo ha pasado en los neutrinos superlumínicos de OPERA. El adelanto de los neutrinos no significa que sean más rápidos que la luz, ya que el valor predicho se encuentra en uno de los extremos del intervalo de error y eso es lo que uno espera que ocurra normalmente con los datos experimentales.
Por otro lado, la figura de arriba (izquierda) también muestra algo muy habitual en el análisis experimental de errores, al comparar los datos de Belle 2009 y Belle 2012. El nuevo valor medio de 2012 está fuera del intervalo de error de 2009; además, los dos intervalos de error tienen una intersección que no incluye a ninguno de los valores medios. El valor de 2012 tiene menor error que el de 2009 y podría pensarse que debe ser más próximo al valor actual, sin embargo, siempre se debe de interpretar un nuevo resultado teniendo presente todos los resultados previos. Como vemos en la figura, el mejor valor actual se encuentra en el extremo derecho del intervalo de 2009 y en el izquierdo de 2012. No siempre pasa esto, mira la figura de arriba (derecha).
Te animo a observar la parte derecha de la figura de arriba y a plantearte qué conclusiones sacar a partir de los pocos datos presentados. ¿Cómo evolucionará en el futuro? ¿Cómo usarías dicho parámetro si fueras físico teórico?
Para acabar, otra cosa que no hay que olvidar es que el mejor valor actual para un parámetro cambia con el tiempo, no siempre los intervalos de error se reducen y por tanto la interpretación del resultado con respecto a las predicciones del modelo estándar (que depende de más de 20 parámetros adicionales) ha de ser muy cuidadosa. Cualquier predicción del modelo estándar depende del software que realice la predicción (hay muchos ajustados de forma ligeramente diferente) y de los parámetros del modelo estándar que se utilicen en dicha predicción. Cualquier predicción teórica del modelo estándar cambia con el tiempo, al ritmo de los resultados experimentales.
Interpretar resultados experimentales es todo un arte. No lo olvidemos, donde algún físico teórico ve un Antoni Tàpies, quizás solo haya un Mark Rothko.
#sinCiencia España seguirá en el pozo, el país con el menor nivel de cercanía con la ciencia y de conocimiento científico

Lo primero, al titular le falta una coletilla “de entre los 11 países estudiados” en el “Estudio Internacional de la Fundación BBVA: Comprensión de la Ciencia.” Cercanía con la ciencia y conocimiento científico “están asociados de forma tal que a mayor cercanía, mayor conocimiento, resultando posible clasificar a los países en tres grupos: (1) Dinamarca y Países Bajos: países que presentan un mayor nivel de cercanía y de conocimiento científico. (2) Alemania, Austria, Francia, Reino Unido y Estados Unidos: países con un nivel de conocimiento y nivel de cercanía medio. (3) Polonia, Italia y España: países con un menor nivel de cercanía y conocimiento de la ciencia. República Checa comparte con este grupo un nivel bajo de cercanía con la ciencia, pero se distancia de dicho grupo por un mayor nivel de conocimiento objetivo.” Por cierto, por si tienes la duda “el nivel de cercanía con la ciencia mide el grado de interés que muestran los ciudadanos por las noticias relacionadas con los temas científicos” y “el nivel de conocimiento científico se ha medido con encuestas sobre algunos conceptos y tesis científicas.” Te recomiendo ojear el informe para los detalles, pero se han considerado cuestiones tipo verdadero o falso como las siguientes: “La extracción de células madre de embriones humanos se hace sin destruir los embriones. Los antibióticos destruyen los virus. Los átomos son más pequeños que los electrones. Hoy por hoy no es posible transferir genes de seres humanos a animales.”
La estadística se ha realizado con encuestas cara a cara a ciudadanos en su hogar utilizando el sistema CAPI (Computer-Assisted Personal Interviewing). Se han elegido 1500 ciudadanos de cada uno de los11 países, todos mayores de edad. “El error muestral estimado con un nivel de confianza del 95.5% y en el caso más desfavorable (p=q=0,5) es de +/- 2.6% para cada país.”
El efecto en el cambio climático del mesozoico del metano producido por los grandes saurópodos

Hay estudios que merecen un premio Ig Nobel solo por el título. El metano es un gas con un potente efecto invernadero y su producción en la ganadería intensiva influye en el calentamiento global. En España, se estima que las flatulencias y el estiércol del ganado representan el 5,75% de las emisiones; en ciertos países se efecto alcanza el 30% del total. Se publica en Current Biology un breve artículo que afirma que en el mesozoico, la producción de metano por los grandes dinosaurios tuvo un efecto importante en el cambio climático en aquella época. Obviamente, cuantificar la producción de metano durante la digestión de la comida de un dinosaurio no parece fácil. Los saurópodos, dinosaurios de cabeza pequeña y largo cuello, se encuentran entre los animales más grandes que han poblado la Tierra. Estimar su densidad es difícil y los números varían entre pocos ejemplares por kilómetro cuadrado a varias decenas. David Wilkinson, Universidad de Liverpool John Moore, y sus colegas de la Universidad de Londres y de la Universidad de Glasgow estiman una densidad de megaherbívoros de 11 a 15 animales por kilómetro cuadrado, con una densidad de biomasa de alrededor de 42.000 kg/km². Este valor medio implica que en las áreas de la Tierra con gran vegetación, el valor alcanzaba los 200.000 kg/km² (unos diez saurópodos con una masa de 20.000 kg). Se estima que la producción de metano de un herbívoro rumiante moderno es de 0,18 litros por día por cada kilogramo de masa corporal. Aplicando este valor a los saurópodos se obtienen unas emisiones de unos 2675 litros de metano por día para cada animal (en peso son unos 1,9 kg de metano para condiciones estándares de temperatura y presión). Las emisiones anuales se estiman en 6,9 toneladas de metano por kilómetro cuadrado al año, totalizando unos 520 millones de toneladas de metano al año en todo el planeta. Este valor es comparable a la emisión moderna de metano (como muestra la figura que abre esta entrada). Los autores del estudio creen que su estimación es pesimista y que siendo un poco más optimistas se podría duplicar este valor de emisiones. Por ello concluyen que estos grandes dinosaurios contribuyeron de forma sustancial a la composición global de metano en el medio ambiente del mesozoico. David M. Wilkinson, Euan G. Nisbet and Graeme D. Ruxton, “Could methane produced by sauropod dinosaurs have helped drive Mesozoic climate warmth?,” Current Biology 22: R292-R293, 8 May 2012. Me he enterado gracias a ”Dinosaur gases ‘warmed the Earth’,” BBC News, 7 May 2012. Ver también Lubos Motl, “Brontosauruses’ flatulence: as much methane as civilization,” TRF, 8 May 2012.
¿Qué importancia tiene este estudio? Si se confirma este estudio se podría utilizar el mesozoico para estudiar el efecto global a largo plazo de las emisiones de gases de efecto invernadero, lo que ayudaría a la mejora de los modelos climáticos actuales.
PS: EFEverde, “El metano de las “flatulencias” de dinosaurio pudo calentar el planeta,” Madri+d, 8 mayo 2012. Copio el primer párrafo: “La investigación, realizada por un grupo de científicos de universidades británicas y publicado en Current Biology, calcula que los dinosaurios gigantes herbívoros -saurópodos- podían emitir conjuntamente hasta 520 millones de toneladas anuales del gas con efecto invernadero. Para hacer el cálculo, los expertos analizaron la proporción de metano emitida por los herbívoros actuales, como vacas y otro tipo de ganado, según su biomasa.”
PS: Michael Marshall, “Sauropod farts warmed the planet,” NewScientist, 07 May 2012.
PS (16 mayo 2012): Miguel Vicente, “Las ventosidades de los dinosaurios y el cambio climático,” Microbichitos, Blogs El País, 14 de mayo de 2012.
Los tiempos muertos no revierten el resultado de un partido de baloncesto

El tiempo muerto es considerado una estrategia de juego capaz de cambiar el resultado de un partido de baloncesto. Un estudio estadístico de 3000 partidos de la NBA muestra que esta opinión es errónea, de hecho, concluye que el tiempo muerto refuerza el juego del equipo que en ese momento domina el partido (aunque no sea el que lo ha solicitado). No soy aficionado al baloncesto, así que no sé si esta creencia será común entre los entrenadores y buenos aficionados, como afirman los autores del estudio, quienes además recuerdan que otros estudios afirman que los descansos durante la jornada de trabajo no tienen ningún efecto sobre la productividad; sirven para mejorar el ambiente del entorno de trabajo, mejorar las relaciones personales y reducir la fatiga tanto física como mental; pero solo mejoran la productividad en los trabajos en los que la fatiga es un factor crítico, como en puestos de trabajo en los sectores de salud, policial, militar y judicial. Si eres aficionado al baloncesto, qué opinas sobre este estudio, ¿mejoran los tiempos muertos “estratégicos” las posibilidades de ganar o el rendimiento del equipo que los solicita? El estudio es Serguei Saavedra, Satyam Mukherjee, James P. Bagrow, “Can Timeouts Change the Outcome of Basketball Games?,” arXiv:1205.1492, 7 May 2012.
He de confesar que a mí este estudio estadístico no me gusta por razones puramente estadísticas. Los autores han estudiado los tiempos muertos de más de 3000 partidos de las temporadas de la NBA entre 2009 y 2012. Para cada partido han calculado la diferencia entre los puntos de ambos equipos antes de solicitar el tiempo muerto y cierto tiempo después del mismo. La dispersión de los resultados (como muestra la figura de arriba) es muy grande y cualquier tendencia es discutible (la significancia estadística de que el tiempo muerto beneficia al partido que va ganando tiene un valor p < 0,0001, con una pendiente de 0,2). Afirmar que los tiempos muertos afectan al partido en beneficio del equipo que va ganando (haya pedido o no el tiempo muerto), me parece muy optimista a partir del análisis estadístico presentado; pero ya sabrás que los físicos solemos ser muy críticos respecto a los análisis puramente estadísticos si su significación “pobre.”
Sobre el mito de que en España llueve más los fines de semana

Mucha gente se lo cree porque parece razonable que “de lunes a viernes generamos más polución, las partículas suspendidas en la atmósfera pueden absorber la luz solar, calentar el aire y alterar el régimen de vientos, o incluso convertirse en semillas para la formación de nubes.” Muchos además recuerdan haberlo leído en Muy Interesante: “Un estudio de investigadores españoles de la Universidad de Barcelona afirmó que en muchas partes de Europa el tiempo atmosférico tiene un ciclo semanal. Tras analizar los datos meteorológicos recogidos desde 1961 hasta 2004, llegaron a la conclusión de que en verano las lluvias se concentran durante los fines de semana; sin embargo, en la estación fría la tendencia es la contraria, los sábados y domingos suelen ser más soleados.” Yo lo acabo de ver en Menéame. Quizás alguno ya sospeche y le extrañe que ocurra “en muchas partes de Europa” pero no en todas, por ejemplo, “en el Reino Unido los [mismos] investigadores no han encontrado ni rastro de un patrón semanal de días lluviosos y soleados.” El famoso artículo técnico es A. Sánchez-Lorenzo, J. Calbó, J. Martín-Vide, A. García-Manuel, G. García-Soriano, and C. Beck, “Winter “weekend effect” in southern Europe and its connections with periodicities in atmospheric dynamics,” Geophys. Res. Lett. 35: L15711 (2008). El efecto de fin de semana fue introducido en el famoso artículo de Randall S. Cerveny & Robert C. Balling, Jr, “Weekly cycles of air pollutants, precipitation and tropical cyclones in the coastal NW Atlantic region,” Nature 394: 561-563 (1998) [pdf gratis]. Muy citado, también ha sido muy criticado por utilizar un análisis estadístico muy discutible (y discutido).

En relación al estudio de Sánchez-Lorenzo y sus colegas, mucha gente no sabe que un estudio posterior de los mismos datos sobre España (que los autores recibieron gracias al propio A. Sánchez-Lorenzo), pero utilizando un análisis de Fourier y métodos de Montecarlo, llegó a la conclusión de que no existe ningún ciclo semanal significativo en dichos datos; más aún, logró explicar el porqué de que Sánchez-Lorenzo y sus colegas encontraran dicho ciclo semanal. El artículo técnico es H. J. Hendricks Franssen, T. Kuster, P. Barmet, and U. Lohmann, “Comment on “Winter ‘weekend effect’ in southern Europe and its connection with periodicities in atmospheric dynamics” by A. Sanchez-Lorenzo et al.,” Geophys. Res. Lett. 36: L13706, (2009) [pdf gratis].
Lo primero que critican en el nuevo artículo es la selección de los datos analizados. Sánchez-Lorenzo y sus colegas seleccionaron las series temporales de la presión del aire en 12 estaciones españolas en los meses de invierno entre enero de 1961 y diciembre de 2004. ¿Por qué solo estudiaron los meses de invierno? No hay razón física subyacente a esta elección puramente asociada al calendario. Además, ¿por qué estudiaron la presión del aire y no otros parámetros meteorológicos? Con otros parámetros resulta que no se observa el ciclo semanal. La figura muestra los datos diarios promediados con los intervalos de error considerados por Sánchez-Lorenzo y sus colegas, que suponen que todas las series temporales son independientes y los obtenidos tras tener en cuenta las correlaciones que existen. La diferencia es grande y el ciclo semanal podría ser un fenómeno puramente aleatorio. Los autores del estudio realizaron un análisis de Montecarlo que asume que las anomalías en la presión ocurren al azar y obtuvieron que al menos el 42% presentan algo parecido al ciclo semanal observado por Sánchez-Lorenzo. La conclusión del nuevo estudio es que el ciclo observado por Sánchez-Lorenzo es accidental, sin una significación estadística suficiente, y su origen es puramente estadístico al no haber tenido en cuenta la correlación estadística entre las series temporales estudiadas.

Hay muchos estudios sobre el “efecto de fin de semana” tanto en la pluviometría (lluvia) como en la concentración de aerosoles (por ejemplo Ari Asmi, “Weakness of the weekend effect in aerosol number concentrations,” Atmospheric Environment 51: 100e107 (2012) [pdf gratis]) muestran que este efecto no supera ningún metaanálisis: hay estudios a favor y los hay en contra, en ciudades y lejos de ellas, en algunos países y no en otros, pero la evidencia estadística del efecto es muy baja. Más aún, en los estudios a favor se mezclan efectos antropogénicos y naturales en igual medida, por lo que el efecto es más un mito que un hecho científico.
Cómo minimizar el error al pesar dos objetos diferentes con una balanza

La estadística es una de las ramas de las matemáticas menos admiradas por la gente aún siendo una de las importantes. Imagina que quieres pesar dos objetos, sean A y B, en una balanza como la de la foto. ¿Cómo puedes pesarlos minimizando el error? Considera que la balanza tiene un error de un gramo. Si pesas primero A y luego B obtendrás un error de σ = 1 gramo en ambas medidas. ¿Puedes hacerlo mejor? ¿Qué dice la estadística al respecto? Piensa un poco y luego lee lo que sigue.
La estadística es una materia que yo impartí a ingenieros en el curso 1996/97. Yo trate de explicar a mis alumnos que la estadística y la probabilidad tienen más de arte que de ciencia y que el buen usuario de la estadística es el que se piensa siempre las cosas dos veces antes de contestar. No sé si logré inculcarlo a mis alumnos, pues los exámenes fueron desastrosos (muchos alumnos calculaban como robots sin ver que los números que obtenían eran barbaridades sin sentido). Bueno, al grano, has pensado sobre el tema. Si no lo has hecho, ánimo, que estas cosas se disfrutan así, pensando.
La respuesta es bien conocida y supongo que muchos no habréis tenido que pensar nada para obtenerla, solo recordarla. Lo que hay que hacer es pesar ambos objetos en el mismo platillo, obteniendo la suma de sus masas, y poner ambos objetos cada uno en un platillo diferente, obteniendo la diferencia de sus masas. Con estos dos valores se puede obtener la masa de cada uno con un error de 0,71 gramos (una mejora de un 41% en el error).

Por cierto, te recomiendo el curso de estadística para físicos de partículas impartido por Tommaso Dorigo en la CHIPP PhD Winter School 2012, Engelberg, Switzerland, 22-27 January 2012.
“Statistics. Day 1: Introduction, Basic stuff, some key concepts, a few examples.” El ejemplo de arriba está extraído de esta parte.
“Statistics. Day 2: Interval estimation.” Esta parte discute el Girominium, el Kaiyinium, el Vivianonium y los neutrinos superlumínicos de OPERA.
“Statistics. Day 3: Advanced techniques.” Esta parte discute, al final, la búsqueda del bosón de Higgs.
¿Quieres aprender a interpretar figuras como éstas? Pues el curso de Estadística de Tommaso seguro que te es de utilidad.


PS (5 feb. 2012): Entrada sobre su curso de estadística en su propio blog: Tommaso Dorigo, “Need Statistics Lessons For HEP Data Analysis? Look Here,” A Quantum Diaries Survivor, January 31st 2012.
Los nadadores profesionales consideran más atractivos los cuerpos de las nadadoras que los de otras mujeres

Han mostrado siluetas de mujeres nadadoras profesionales y otras que no lo son a hombres que son nadadores profesionales y a otros que no lo son. Los nadadores prefieren las siluetas de las mujeres nadadoras (tanto en negro como a color); el resto de los hombres no muestra dicha preferencia. ¿Cómo se puede interpretar este resultado desde el punto de vista de la selección sexual en humanos? Muchos expertos opinan que la pareja preferida es la que tiene la apariencia típica de la especie (el llamado fenotipo promedio); por ejemplo, entre los seres humanos hay estudios que afirman que una cara mal proporcionada está asociada a ciertas enfermedades genéticas, peor salud física y peor sistema inmunológico. ¿Cómo sabe un humano cuál es el fenotipo promedio de una persona del otro sexo? A nivel neuronal, la evaluación del fenotipo depende de la correspondencia con algún prototipo mental que represente el fenotipo promedio de la población. Esta plantilla neuronal es poco probable que sea innata, por lo que su origen es la apariencia de los individuos que se han visto en el entorno. Este hecho ha sido demostrado para la forma de la cara en varios estudios. El nuevo estudio estudia esta hipótesis usando el cuerpo típico de las nadadoras profesionales (un tronco relativamente largo, piernas cortas, hombros anchos y pecho ancho). Por supuesto, aunque a mí me gustan este tipo de estudios, he de reconocer que hay que cogerlos con alfileres. Establecer una correspondencia entre las preferencias de una persona según un test de preguntas y un posible modelo mental requiere estudios más rigurosos que el realizado por este investigador polaco que ha considerado solo 43 nadadores profesionales y 55 hombres que no lo son, todos ellos heterosexuales. Yo creo que una muestra tan reducida no permite extraer conclusiones estadísticamente fiables. Habrá que esperar a que futuros estudios aclaren esta cuestión. El artículo técnico es Krzysztof Kościński, “Mere visual experience impacts preference for body shape: evidence from male competitive swimmers,” Evolution and Human Behavior, In Press, Online 30 November 2011.

Por si te lo preguntas, a mí me gustan estos estudios psicológicos porque me hacen pensar en cómo afectarán el mundo de las imágenes en la que viven nuestros hijos pequeños a su futuro social. La televisión, las revistas, e incluso pasear por la calle nos ofrece imágenes irreales de lo que es un humano atractivo (la mayoría están retocadas por Photoshop); muchos adolescentes desean parecerse a lo que ven en estas imágenes. Pero pocos humanos en nuestro entorno se parecen a ellas. ¿Qué influirá más en la impronta mental (si existe) de nuestros hijos? Me gustaría que fuera lo que ven en los humanos que les rodean, personas de carne y hueso como tú y como yo, pero quizás también les afecte la “mentira” de las imágenes con las que nuestra sociedad les bombardea. Los humanos evolucionaron en un entorno donde todos los humanos eran reales, pero nuestros hijos están creciendo en un entorno repleto de imágenes de humanos ficticios, que no existen en la forma en la que los vemos. Los modelos de interacción social que gracias a la evolución moldearon nuestro comportamiento social, cómo nos afectan en la actualidad. Da que pensar…
Este tipo de entradas me recuerdan a algunas de mis lecturas preferidas de adolescente, como Konrad Lorenz y sus improntas en animales; la wikipedia dice que “en su libro “Los Ocho Pecados Mortales de la Humanidad Civilizada,” dijo que la mejor esperanza para mejorar y salvar a la humanidad radica en seguir el consejo hebraico de buscar pareja en base a la bondad del alma, no a la belleza externa o las consideraciones del dinero o del estatus social” (yo no recuerdo haber leído dicho libro). También me recuerdan a Desmond Morris y lo que disfruté cuestionando mi entorno gracias a sus “El mono desnudo” y “El zoo humano” (leí otros pero en casa solo tengo estos). Gracias a la wikipedia, de nuevo, compruebo que Morris se ha transformado en un artista surrealista.
La psicología evolucionista, la etología humana, la etología, la zoología, la biología, … Esta entrada participa en la IX edición del Carnaval de Biología, organizado por Carlos Lobato (@biogeocarlos), autor del blog “La Ciencia de la Vida“. El plazo para participar es hasta el 2 de febrero de 2012.
Rumores y nueva información no oficial sobre la búsqueda del bosón de Higgs

Nadie en el LHC quiere afirmar con rotundidad que el Higgs existe, porque quizás no exista, o porque es políticamente incorrecto, pero mucha gente se está atreviendo a anticipar el resultado que se obtendrá tras combinar todos los datos obtenidos en 2011 por ATLAS y CMS, los dos grandes experimentos del LHC en el CERN. Estas combinaciones no oficiales se basan en el teorema central del límite y han de ser cogidas con alfileres, sin embargo, son un punto de partida para tener una idea de lo que podremos contemplar en la figura oficial que se publicará en marzo de 2012. Esta figura en concreto ha sido obtenida por un “bloguero anónimo” y aparece en una charla de Eilam Gross sobre la búsqueda del Higgs que está disponible en youtube (ver al final de esta entrada). No hay que ser Gross, ni ver el final de su charla para interpretar lo que nos dice esta figura. Si existe un Higgs con cierta masa, la línea negra debe tener la forma de un pico ancho con un valor máximo de la unidad; si no existe el Higgs con cierta masa, la línea negra debe tener un valor nulo; la banda en azul es la banda a 1 sigma. ¿Qué nos dice esta figura? Que los datos de diciembre del LHC apuntan a un Higgs con una masa entre 124 y 125 GeV/c²; los datos de CMS que apuntan a un Higgs de unos 119 GeV/c² quedan bastante minimizados en esta figura combinada.

Los que gusten pueden comparar la figura que abre esta entrada con esta otra, obtenida por Philip Gibbs, que ofrece una conclusión muy similar (y que además se atreve a combinar también los datos de LEP y del Tevatrón, ver detalles en viXra log). Perdóname, pero me gustan estas figuras, igual que me ha gustado la charla de Gross. Si tienes una hora y media y te interesa el tema, la charla merece la pena. Por lo menos es mucho más corta que leer en detalle su artículo Glen Cowan, Kyle Cranmer, Eilam Gross, Ofer Vitells, “Asymptotic formulae for likelihood-based tests of new physics,” Eur. Phys. J. C 71: 1554, 2011 (ArXiv preprint), muy interesante por cierto.

La figura de exclusión obtenida por este “bloguero anónimo” que nos muestra Gross presenta claramente un exceso alrededor de 125 GeV/c², aunque quizás demasiado por encima de la unidad; si quieres saber más detalles puedes consultar el final del vídeo de la charla de Eilam Gross.
Estas figuras puede que sean un reflejo de lo que veremos en marzo en la figura oficial ALTAS+CMS, pero para entonces se incorporarán nuevos canales de búsqueda en ATLAS (hubo un cambio en los parámetros del simulador de Montecarlo oficial de ATLAS que ha introducido retrasos en el análisis de ciertos canales) y se mejorará el análisis estadístico de las colisiones de CMS; estos cambios podrían conducir a que la señal a 125 GeV se refuerce y a ello apuntan ciertos rumores, según Peter Woit, “This Week’s Rumor,” Not Even Wrong, 10 Jan. 2012. El rumor de la semana pasada era que los datos de CMS en el canal difotónico muestra una señal más fuerte que la versión preliminar publicada el 13 de diciembre; el pico observado por CMS alrededor de 123,5 GeV ha crecido hasta 124 GeV, y su significación estadística ha subido de 2,3 a 3 sigmas, lo que incorporando el efecto “look elsewhere” implica subir de 0,8 sigma a 2,0 sigma. Combinado con ATLAS, este resultado refuerza la señal de un Higgs con una masa alrededor de 125 GeV. Sin embargo, habrá que esperar a la publicación de la combinación oficial ATLAS+CMS para confirmar este rumor.

Por ahora, a falta de confirmación definitiva, todo apunta a que el LHC funcionará en 2012 con colisiones protón-protón a 8 TeV c.m. (en el centro de masas). Los expertos creen que es seguro incrementar la energía de los haces de 3,5 TeV a 4 TeV y las ventajas de este incremento en la búsqueda de un Higgs con una masa alrededor de 125 GeV son importantes; si todo va bien, con solo 5 /fb de datos a 8 TeV c.m. en 2012, combinando CMS y ATLAS ya se obtendría una evidencia a 5 sigma del Higgs.
¿Por qué se utiliza 5 sigma como señal de un descubrimiento y no otro valor? Esta pregunta se la hacen a Eilam Gross al final de su charla y la razón es sencilla, el efecto “look elsewhere” aplicado a un Higgs que no sabemos la masa que tiene. Una fluctuación estadística a 3 sigma es más probable si el rango de masas estudiado es mayor; pongamos un ejemplo sencillo, que salgan 5 caras seguidas en 10 tiradas de una moneda tiene una probabilidad del 11%, pero en 100 tiradas es del 81% y en 300 supera el 99%. Cuando se pensaba que el Higgs podría tener una masa entre 40 y 1000 GeV, se consideró que 3 sigma era poca evidencia y se tomó 5 sigma como imprescindible para evitar fluctuaciones muy probables debido al efecto “look elsewhere.” Eilam Gross confiesa (en el turno de preguntas, tratando de ser lo más políticamente correcto posible) que en ATLAS ya se han observado varias fluctuaciones para el Higgs entre 3 y 4 sigma que han desaparecido tras un análisis posterior. Ya os he comentado en varias ocasiones que en mi opinión, teniendo en cuenta el el efecto “look elsewhere,” incluso 5 sigma puede que no sea suficiente para un descubrimiento definitivo del Higgs; obviamente, una vez se haya descubierto esta partícula este efecto dejará de tener sentido. Os dejo la interesante charla de Gross en youtube por si alguno tiene una hora y media para disfrutar con la física del Higgs y la estadística de la búsqueda del Higgs en pie de igualdad.
La masa del bosón de Higgs es 124,5 ± 0,8 GeV/c² al 68% C.L., combinando teoría y experimento

Jens Erler (Institute for Advanced Study, Princeton, NJ, EE.UU.) nos presenta la mejor estimación teórica a día de hoy para la masa del bosón de Higgs del modelo estándar, caso de que exista, Mh = 124,5 ± 0,8 GeV/c² al 68% C.L.; para obtenerla ha combinado los tests de precisión de la teoría electrodébil y los resultados de las búsquedas experimentales del Higgs en LEP2, el Tevatrón y el LHC. La interpretación estadística de este resultado no requiere correcciones debidas al efecto “mirar a otro lado” (look-elsewhere effect). El análisis estadístico bayesiano realizado por Erler permite acotar la masa del bosón de Higgs en un intervalo muy pequeño, 123,7 GeV/c² < Mh < 125,3 GeV/c² con una significación estadística de 2,4 sigmas (o del 98,2 %). Según el autor, cuando la combinación ATLAS+CMS del LHC acumule más de 12 /fb de datos será posible obtener un resultado con una significación mayor de 5 sigmas; si tiene razón significa que para el verano próximo podría proclamarse un descubrimiento definitivo del bosón de Higgs (descubrimiento combinando datos teóricos y experimentales, ya que el descubrimiento experimental a 5 sigmas requerirá acumular más datos de colisiones). El artículo teórico es sencillo y fácil de leer, por lo que recomiendo su lectura a todos los físicos interesados: Jens Erler, “Weighing in on the Higgs,” ArXiv, 3 Jan 2012.

Atención, pregunta: Por qué tus amigos tienen más amigos que tú

La estadística tiene estas paradojas. Eran dos y uno se comió un pollo; la estadística dice que cada uno disfrutó de la mitad. Aprovecha una fiesta con tus amigos para hacer este experimento. Pídale a cada uno de ellos que escriba cuántos amigos tiene. No importa quien seas o quienes sean tus amigos, lo más probable es que descubras que tus amigos, en promedio, tienen más amigos que tú. ¿Cómo es posible? La amistad es una relación simétrica, si X es amigo de Y, entonces Y es amigo de X. ¿Cómo es posible que Y y otros amigos de X tengan más amigos que X? Este experimento fue ideado por el sociólogo Scott L. Feld (ahora en la Universidad de Purdue) que nos pone un ejemplo sencillo, las ocho niñas de la figura. Betty tiene una sola amiga (Sue), pero Sue tiene cuatro amigas (Betty, Alice, Pam y Dale). En promedio, estos ocho niñas tienen 2,5 amigas, pero los amigos de estas ocho niñas (que son ellas mismas) tienen en promedio tres amigas. El artículo técnico es “Why your friends have more friends than you do,” American Journal of Sociology 96: 1464-1477, 1991 [copias gratis]. Me lo ha recordado la relectura de Satoshi Kanazawa, “Why Your Friends Have More Friends Than You Do. And why your girlfriend is a whore,” The Scientific Fundamentalist, November 1, 2009.
Si uno lo piensa un momento, el origen de esta aparente paradoja es trivial, ¿es la estadística, tonto! (parafraseando a la campaña presidencial de Bill Clinton en 1992 y su famoso «the economy, stupid»). Sin embargo esta idea tan simple no se le ocurrió a nadie antes de Feld. Tú tienes más probabilidades de ser amigo de alguien que tiene más amigos que tú, que de alguien que tiene menos. Imagina una reunión con 12 personas que tienen un solo amigo entre ellos que tiene 12 amigos y en la que hay una sola persona que tiene un amigo con un solo amigo. Al calcular el número promedio de amigos que tiene una persona el número 12 aparece una sola vez. Sin embargo, al calcular el número promedio de amigos que tienen los amigos de una persona concreta, el número 12 aparecerá 11 veces, por lo que este número siempre será mayor que el primero.
Una variante de esta paradoja es ¿por qué tu primera pareja es más promiscua que tú? Muchos hombres se deprimen después de tener sexo con una mujer por primera vez, cuando ella les confiesa que ha tenido más amantes antes que él. La razón es la misma, la puñetera estadística. Imagina de nuevo que hay 12 hombres que han tenido una amante que ha tenido (o tendrá) 12 amantes, pero solo hay un hombre que ha tenido una amante que ha tenido un solo amante. Cada hombre ha de estar agradecido, ya que la razón por la que ella llegó a ser su amante es porque ella ha tenido (o casi seguro tendrá) muchos amantes. Para este hombre es 12 veces más probable tener relaciones con esta mujer que con una mujer que solo ha tenido un amante. Paradójicamente, si tu pareja solo tuvo un amante, probablemente no seas tú. Y si tu pareja no ha tenido ningún amante, con toda seguridad no eres tú.
También hay una variante intergeneracional: “¿Por qué nuestras madres tenían más hijos que otras mujeres de su generación?” Te dejo que hagas el razonamiento por tu propia cuenta. Y hay muchas variantes, si piensas un poco descubrirás muchas; usa los comentarios para sorprendernos.
Hoy “Atención, pregunta” es un “Piensa, comenta.”
Por cierto, aprovecha estas fiestas para hacer experimentos con tus amigos y familia. No tienen que ser experimentos sociológicos, también pueden ser experimentos físicos, como los de Richard Wiseman (los he visto tantas veces y en tantos lugares que no dónde los descubrí por primera vez; Google me indica que han vuelto a aparecer en Menéame).





