Por qué cinco sigmas en un solo experimento no son suficientes para un descubrimiento

Muy sencillo, porque en el pasado ha habido muchos falsos descubrimientos cuando se han observado cinco o más sigmas en un solo experimento. Como mínimo es necesario que dos experimentos independientes observen lo mismo con al menos cinco sigmas (una separación de cinco desviaciones típicas entre los datos medidos y el valor medio esperado, algo que ocurre al azar una vez en cada tres millones de ocasiones). Todos recordáis el caso más sonado y reciente, la observación con 6 sigmas de neutrinos muónicos superlumínicos en OPERA (por cierto, la última versión del artículo, ya sin neutrinos superlumínicos, se ha publicado el 12 de julio en arXiv). La figura que abre esta entrada también es famosa, el falso descubrimiento de los pentaquarks con 5,8 sigmas en la Colaboración CLAS (artículo original publicado en PRL, arXiv:hep-ex/0307018). Tras acumular cinco veces más datos de colisiones en la propia Colaboración CLAS, el pico desapareció, como muestra la figura de abajo (el histograma con línea continua son los nuevos datos y los puntos gruesos son los datos antiguos); este trabajo también apareció en PRLarXiv:hep-ex/0603028. Más aún, la propia colaboración CLAS publicó un artículo reivindicando que además de las cinco sigmas se debía exigir un análisis bayesiano de los datos, pues dicho análisis hubiera aclarado que el pico de 2003 en realidad era una fluctuación estadística en los datos originales.

El análisis estadístico bayesiano de los datos de los experimentos ha entrado hace menos de una década en la física de partículas. El análisis bayesiano (por Thomas Bayes, s. XVIII) se diferencia del análisis frecuentista en cómo se interpretan las probabilidades de que se dé el resultado observado en un experimento. El análisis bayesiano calcula las probabilidades a posteriori P(A∣B) a partir de las probabilidades a priori, P(A) y P(B), utilizando las probabilidades condicionadas P(B∣A) gracias al teorema de Bayes P(A∣B) = P(B∣A) P(A)/P(B). Lo más importante de este enfoque es algo muy obvio, pero también muy fácil de olvidar, que P(A∣B) no es igual que P(B∣A). Por ejemplo, la probabilidad de estar embarazada, asumiendo que se es mujer, no es lo mismo que la probabilidad de ser mujer, asumiendo que se está embarazada. Obvio. Pero, créeme, fácil de olvidar (yo suspendía a muchos alumnos por este tipo de errores de bulto cuando impartía un asignatura llamada “Métodos Estadísticos,” pero de eso ya hace 15 años).

Estas cosas tan obvias son tan fáciles de olvidar que hasta yo mismo he caído en la trampa varias en este blog (sobre todo cuando escribo entradas rápidas en las que pienso poco). Por ejemplo, si la probabilidad de obtener ciertos datos observados bajo la hipótesis de que no existe el bosón de Higgs en un cierto rango de masas es de solo el 5% (es decir, 95% CL), es incorrecto deducir a partir de estos datos que la probabilidad de que no exista un Higgs con una masa en dicho rango sea de solo el 5%. Lo confieso, en este fallo yo he caído yo varias ocasiones en este blog. Por eso me ha gustado el artículo de Louis Lyons, “Discovery or fluke: statistics in particle physics,” Physics Today 65: 45-51, July 2012, en el que basaré esta entrada.

En el enfoque bayesiano tenemos el “valor de un parámetro” (sea la masa del Higgs) y una serie de “datos observados” (sea el número de eventos tipo Higgs observados dividido entre el número de dichos eventos predichos bajo la hipótesis de que no exista el Higgs), con lo que el teorema de Bayes afirma que P(param|datos) ∝ P(datos|param) × P(param), siendo P(param) la probabilidad bayesiana a priori, que condensa todo lo que sabemos antes de realizar la observación sobre el resultado esperado (es decir, lo que predice el modelo estándar usando los valores de sus parámetros más recientes disponibles). Se llama función de verosimilitud P(datos|param) a la probabilidad de observar los datos si el parámetro tiene un valor dado. Finalmente, a P(param|datos) se le llama probabilidad bayesiana a posteriori, que corresponde al nuevo “conocimiento” que obtenemos gracias a los datos observados en el experimento. Esta probabilidad es la que se usa para calcular los intervalos de confianza, por ejemplo, al 68% CL o al 95% CL.

La estadística no es fácil e interpretar sus resultados es todo un arte (cuando yo impartía clases de esta materia mi libro de cabecera era “The Art of Probability for Scientists and Engineers,” de Richard W. Hamming, acompañado de los dos volúmenes de William Feller, claro). En la física de partículas lo más complicado es determinar las distribuciones de probabilidad a priori, lo que sabemos sobre las predicciones del modelo estándar para las colisiones observadas en ciertos detectores muy concretos. Porque puede parecer una tontería pero conocer hasta el último detalle de los detectores es fundamental para saber qué podrán observar ante un evento (colisión) concreta. En ciertos canales de búsqueda del Higgs donde el conocimiento de los detectores no es lo suficientemente bueno (porque no se han podido estudiar lo suficiente mediante rayos cósmicos en los últimos años y se requiere acumular más colisiones y experiencia), las probabilidades a priori deben de tener muy en cuenta este desconocimiento.

La técnica estadística fundamental en física de partículas es el contraste de hipótesis. Hay que decidir si los datos son compatibles con la hipótesis nula H0 (no hay ninguna partícula nueva en los datos, solo “ruido” de fondo) o con la hipótesis positiva H(hay una partícula nueva con ciertas propiedades, hay una “señal” además del “ruido” de fondo). Para contrastar ambas hipótesis hay que utilizar un parámetro observable (t en la figura). Cada hipótesis se observa como una distribución estadística (gaussiana en esta figura, pero no tiene porqué serlo). Conforme se acumulan datos, si la partícula buscada existe, ambas distribuciones se separarán un cierto número de desviaciones típicas (sigmas). En la figura se muestra una separación de tres sigmas entre la hipótesis positiva y la nula. Para un valor dado del parámetro, sea t’, se definen dos probabilidades p0 y p1 que corresponden a la fracción de área de la distribución correspondiente a cada hipótesis (como muestra la figura en los sombreados rojo y gris). Se proclama un descubrimiento cuando la probabilidad p0 está por debajo de un cierto valor (nivel) predefinido α. Igualmente, se excluye la hipótesis H1 si la probabilidad p1 está por debajo de un cierto valor (nivel) predefinido γ. Cuando para el valor t’ no se cumplen ninguno de los dos casos, no se puede tomar ninguna decisión (ni exclusión ni descubrimiento) y en física de partículas se dice que la variable no es suficientemente sensible aún. El valor α por consenso es 3 × 10−7, que corresponde a una cola gaussiana de 5 sigmas (5 σ) para la distribución de la hipótesis H0. El valor de γ por consenso es de solo el 5% (0,05). Por ello, quizás habría que hablar de valor “desfavorecido” en lugar de usar el término más habitual de valor “excluído.” Muchas veces, para evitar excluir demasiado pronto, se utiliza el cociente  p1/(1-p0) en lugar de  p1 para determinar la exclusión.

Una cuestión que le surgirá al lector inquieto es el problema de especificar los parámetros de la hipótesis positiva H1, parámetros que aún no conocemos (por ejemplo, en el caso del Higgs su masa). En ese caso también tenemos que tener en cuenta el efecto de “mirar a todos lados” (“look elsewhere” effect o LEE). Si solo hay “ruido” (hipótesis H0) en un intervalo de valores para el parámetro que sea grande es posible que haya fluctuaciones aleatorias importantes que podrían falsear el contraste de la hipótesis y hacernos pensar que hay señal donde no la hay. Una fluctuación local a 4 σ es muy probable en un intervalo muy grande, por lo que hay que normalizar la significación estadística de las hipótesis teniendo en cuenta este efecto. Cuando la evidencia de exclusión en dicho intervalo grande es alta (de varias sigmas), se puede reducir el tamaño de dicho intervalo. Como siempre en el arte de la estadística, la interpretación de este proceso está sujeto a costumbres que van siendo adoptadas, ganando cierto consenso, hasta que se convierten en una ley de facto, como la que afirma que un nuevo descubrimiento requiere 5 sigmas en al menos dos experimentos independientes.

Anuncios

4 pensamientos en “Por qué cinco sigmas en un solo experimento no son suficientes para un descubrimiento

  1. Con mis prácticamente olvidados recuerdos de estadística me atrevo a preguntar: en el contraste de hipótesis se usa un estadístico de contraste, había varios: F de Snedecor, t de Student, Chi cuadrado, Normal, Binomial. ¿Cual se usa en física de partículas? El teorema de Bayes creo que se usa para calcular la probabilidad de que un suceso ocurra y lo detectemos, por ejemplo que una persona tenga una enfermedad (D) y un test para esa enfermedad dé positivo (T+). La probabilidad de que la persona esté enferma y el test dé positivo es: P [D|T+]. En este caso supongo que sería, dicho a lo bruto, la probabilidad de que el bosón de Higgs exista y el LHC “dé positivo”.

    • Hola Daniel. Preguntas qué test se usa (F de Snedecor, t de Student, Chi cuadrado, Normal, Binomial, etc.). Bien, una respuesta es la siguiente: teniendo una distribución previa del parámetro que estás investigando, vas a “considerar” utilizarla (la distribución previa) junto con los datos observados que tienes de tu fenómeno (lo que llaman “verosimilitud”; estos datos han sido generados siguiendo un proceso con un parámetro particular que se desconoce y se desea estimar). Ahora entra en juego el principio de Bayes: el resultado del producto de tu distribución previa y tus datos observados es proporcional a la distribución posterior de tu parámetro (dados los datos observados). Esto se consigue en general mediante simulaciones y muestreo computacional de la (intratable) distribución posterior aunque hay casos excepcionales donde se puede conocer la distribución posterior analíticamente. De forma que a la final obtendrás no un valor sobre el cual inferir (como en la estadística tradicional) sino toda una larga secuencia de valores posibles de tu parámetro (¡toda una distribución de tu parámetro!). Y con estos valores puedes hacer lo que quieras. Por ejemplo puedes mirar, empíricamente, aquel 5% de valores hacia los extremos de tu secuencia, y quedarte con el 95% central restante y decir cosas como: “el 95% de las veces, el parámetro de interés se observó entre tales y tales valores…”. Bien, con esto te quiero decir, que, desde la óptica bayesiana, no hay necesidad de una prueba de hipótesis (F de Snedecor, t de Student, Chi cuadrado, Normal, Binomial, etc.) para concluir dónde está tu parámetro. Esta es la esencia de la estadística bayesiana.

  2. Se entiende que una sola prueba se 5 sigmas nos es suficiente pero estimo que tendriamos que determinar el tamaño de la muestra donde se constaten la 5 sigmas.
    Si hacemos pruebas con un dado de 6 lados, Si obtenemos 5 sigmas en 1 de los lados en una muestra de 100 tiradas significa algo diferente a que si las 5 sigmas la obtenemos en 1000 tiradas.
    Muchas veces, para llegar a las 5 sigmas necesitamos agrandar la muestra.
    Si queremos confirmar una prediccion las desviaciones standard deberian ir aumentando a medida que aumentan el muestreo.
    Creo haber afirmado algo correcto

    Un saludo

  3. Para la formacion de 5 sigmas en un ensayo: como debe ser esa muestra en lo referente a su tamaño?
    Imagino que cuanto mayor es la muestra es necesario acumular mas sigmas.
    Ademas, como ayuda el teorema de Bayes para no necesitar que nuestras pruebas superen las 5 sigmas 2 veces que es algo bastante dificil de alcanzar y a veces lleva muchas pruebas?
    Un saludo

Los comentarios están cerrados.