Muy sencillo, porque en el pasado ha habido muchos falsos descubrimientos cuando se han observado cinco o más sigmas en un solo experimento. Como mínimo es necesario que dos experimentos independientes observen lo mismo con al menos cinco sigmas (una separación de cinco desviaciones típicas entre los datos medidos y el valor medio esperado, algo que ocurre al azar una vez en cada tres millones de ocasiones). Todos recordáis el caso más sonado y reciente, la observación con 6 sigmas de neutrinos muónicos superlumínicos en OPERA (por cierto, la última versión del artículo, ya sin neutrinos superlumínicos, se ha publicado el 12 de julio en arXiv). La figura que abre esta entrada también es famosa, el falso descubrimiento de los pentaquarks con 5,8 sigmas en la Colaboración CLAS (artículo original publicado en PRL, arXiv:hep-ex/0307018). Tras acumular cinco veces más datos de colisiones en la propia Colaboración CLAS, el pico desapareció, como muestra la figura de abajo (el histograma con línea continua son los nuevos datos y los puntos gruesos son los datos antiguos); este trabajo también apareció en PRL, arXiv:hep-ex/0603028. Más aún, la propia colaboración CLAS publicó un artículo reivindicando que además de las cinco sigmas se debía exigir un análisis bayesiano de los datos, pues dicho análisis hubiera aclarado que el pico de 2003 en realidad era una fluctuación estadística en los datos originales.
El análisis estadístico bayesiano de los datos de los experimentos ha entrado hace menos de una década en la física de partículas. El análisis bayesiano (por Thomas Bayes, s. XVIII) se diferencia del análisis frecuentista en cómo se interpretan las probabilidades de que se dé el resultado observado en un experimento. El análisis bayesiano calcula las probabilidades a posteriori P(A∣B) a partir de las probabilidades a priori, P(A) y P(B), utilizando las probabilidades condicionadas P(B∣A) gracias al teorema de Bayes P(A∣B) = P(B∣A) P(A)/P(B). Lo más importante de este enfoque es algo muy obvio, pero también muy fácil de olvidar, que P(A∣B) no es igual que P(B∣A). Por ejemplo, la probabilidad de estar embarazada, asumiendo que se es mujer, no es lo mismo que la probabilidad de ser mujer, asumiendo que se está embarazada. Obvio. Pero, créeme, fácil de olvidar (yo suspendía a muchos alumnos por este tipo de errores de bulto cuando impartía un asignatura llamada «Métodos Estadísticos,» pero de eso ya hace 15 años).
Estas cosas tan obvias son tan fáciles de olvidar que hasta yo mismo he caído en la trampa varias en este blog (sobre todo cuando escribo entradas rápidas en las que pienso poco). Por ejemplo, si la probabilidad de obtener ciertos datos observados bajo la hipótesis de que no existe el bosón de Higgs en un cierto rango de masas es de solo el 5% (es decir, 95% CL), es incorrecto deducir a partir de estos datos que la probabilidad de que no exista un Higgs con una masa en dicho rango sea de solo el 5%. Lo confieso, en este fallo yo he caído yo varias ocasiones en este blog. Por eso me ha gustado el artículo de Louis Lyons, «Discovery or fluke: statistics in particle physics,» Physics Today 65: 45-51, July 2012, en el que basaré esta entrada.
En el enfoque bayesiano tenemos el «valor de un parámetro» (sea la masa del Higgs) y una serie de «datos observados» (sea el número de eventos tipo Higgs observados dividido entre el número de dichos eventos predichos bajo la hipótesis de que no exista el Higgs), con lo que el teorema de Bayes afirma que P(param|datos) ∝ P(datos|param) × P(param), siendo P(param) la probabilidad bayesiana a priori, que condensa todo lo que sabemos antes de realizar la observación sobre el resultado esperado (es decir, lo que predice el modelo estándar usando los valores de sus parámetros más recientes disponibles). Se llama función de verosimilitud P(datos|param) a la probabilidad de observar los datos si el parámetro tiene un valor dado. Finalmente, a P(param|datos) se le llama probabilidad bayesiana a posteriori, que corresponde al nuevo «conocimiento» que obtenemos gracias a los datos observados en el experimento. Esta probabilidad es la que se usa para calcular los intervalos de confianza, por ejemplo, al 68% CL o al 95% CL.
La estadística no es fácil e interpretar sus resultados es todo un arte (cuando yo impartía clases de esta materia mi libro de cabecera era «The Art of Probability for Scientists and Engineers,» de Richard W. Hamming, acompañado de los dos volúmenes de William Feller, claro). En la física de partículas lo más complicado es determinar las distribuciones de probabilidad a priori, lo que sabemos sobre las predicciones del modelo estándar para las colisiones observadas en ciertos detectores muy concretos. Porque puede parecer una tontería pero conocer hasta el último detalle de los detectores es fundamental para saber qué podrán observar ante un evento (colisión) concreta. En ciertos canales de búsqueda del Higgs donde el conocimiento de los detectores no es lo suficientemente bueno (porque no se han podido estudiar lo suficiente mediante rayos cósmicos en los últimos años y se requiere acumular más colisiones y experiencia), las probabilidades a priori deben de tener muy en cuenta este desconocimiento.
La técnica estadística fundamental en física de partículas es el contraste de hipótesis. Hay que decidir si los datos son compatibles con la hipótesis nula H0 (no hay ninguna partícula nueva en los datos, solo «ruido» de fondo) o con la hipótesis positiva H1 (hay una partícula nueva con ciertas propiedades, hay una «señal» además del «ruido» de fondo). Para contrastar ambas hipótesis hay que utilizar un parámetro observable (t en la figura). Cada hipótesis se observa como una distribución estadística (gaussiana en esta figura, pero no tiene porqué serlo). Conforme se acumulan datos, si la partícula buscada existe, ambas distribuciones se separarán un cierto número de desviaciones típicas (sigmas). En la figura se muestra una separación de tres sigmas entre la hipótesis positiva y la nula. Para un valor dado del parámetro, sea t’, se definen dos probabilidades p0 y p1 que corresponden a la fracción de área de la distribución correspondiente a cada hipótesis (como muestra la figura en los sombreados rojo y gris). Se proclama un descubrimiento cuando la probabilidad p0 está por debajo de un cierto valor (nivel) predefinido α. Igualmente, se excluye la hipótesis H1 si la probabilidad p1 está por debajo de un cierto valor (nivel) predefinido γ. Cuando para el valor t’ no se cumplen ninguno de los dos casos, no se puede tomar ninguna decisión (ni exclusión ni descubrimiento) y en física de partículas se dice que la variable no es suficientemente sensible aún. El valor α por consenso es 3 × 10−7, que corresponde a una cola gaussiana de 5 sigmas (5 σ) para la distribución de la hipótesis H0. El valor de γ por consenso es de solo el 5% (0,05). Por ello, quizás habría que hablar de valor «desfavorecido» en lugar de usar el término más habitual de valor «excluído.» Muchas veces, para evitar excluir demasiado pronto, se utiliza el cociente p1/(1-p0) en lugar de p1 para determinar la exclusión.
Una cuestión que le surgirá al lector inquieto es el problema de especificar los parámetros de la hipótesis positiva H1, parámetros que aún no conocemos (por ejemplo, en el caso del Higgs su masa). En ese caso también tenemos que tener en cuenta el efecto de «mirar a todos lados» (“look elsewhere” effect o LEE). Si solo hay «ruido» (hipótesis H0) en un intervalo de valores para el parámetro que sea grande es posible que haya fluctuaciones aleatorias importantes que podrían falsear el contraste de la hipótesis y hacernos pensar que hay señal donde no la hay. Una fluctuación local a 4 σ es muy probable en un intervalo muy grande, por lo que hay que normalizar la significación estadística de las hipótesis teniendo en cuenta este efecto. Cuando la evidencia de exclusión en dicho intervalo grande es alta (de varias sigmas), se puede reducir el tamaño de dicho intervalo. Como siempre en el arte de la estadística, la interpretación de este proceso está sujeto a costumbres que van siendo adoptadas, ganando cierto consenso, hasta que se convierten en una ley de facto, como la que afirma que un nuevo descubrimiento requiere 5 sigmas en al menos dos experimentos independientes.