Por qué cinco sigmas en un solo experimento no son suficientes para un descubrimiento

Muy sencillo, porque en el pasado ha habido muchos falsos descubrimientos cuando se han observado cinco o más sigmas en un solo experimento. Como mínimo es necesario que dos experimentos independientes observen lo mismo con al menos cinco sigmas (una separación de cinco desviaciones típicas entre los datos medidos y el valor medio esperado, algo que ocurre al azar una vez en cada tres millones de ocasiones). Todos recordáis el caso más sonado y reciente, la observación con 6 sigmas de neutrinos muónicos superlumínicos en OPERA (por cierto, la última versión del artículo, ya sin neutrinos superlumínicos, se ha publicado el 12 de julio en arXiv). La figura que abre esta entrada también es famosa, el falso descubrimiento de los pentaquarks con 5,8 sigmas en la Colaboración CLAS (artículo original publicado en PRL, arXiv:hep-ex/0307018). Tras acumular cinco veces más datos de colisiones en la propia Colaboración CLAS, el pico desapareció, como muestra la figura de abajo (el histograma con línea continua son los nuevos datos y los puntos gruesos son los datos antiguos); este trabajo también apareció en PRLarXiv:hep-ex/0603028. Más aún, la propia colaboración CLAS publicó un artículo reivindicando que además de las cinco sigmas se debía exigir un análisis bayesiano de los datos, pues dicho análisis hubiera aclarado que el pico de 2003 en realidad era una fluctuación estadística en los datos originales.

El análisis estadístico bayesiano de los datos de los experimentos ha entrado hace menos de una década en la física de partículas. El análisis bayesiano (por Thomas Bayes, s. XVIII) se diferencia del análisis frecuentista en cómo se interpretan las probabilidades de que se dé el resultado observado en un experimento. El análisis bayesiano calcula las probabilidades a posteriori P(A∣B) a partir de las probabilidades a priori, P(A) y P(B), utilizando las probabilidades condicionadas P(B∣A) gracias al teorema de Bayes P(A∣B) = P(B∣A) P(A)/P(B). Lo más importante de este enfoque es algo muy obvio, pero también muy fácil de olvidar, que P(A∣B) no es igual que P(B∣A). Por ejemplo, la probabilidad de estar embarazada, asumiendo que se es mujer, no es lo mismo que la probabilidad de ser mujer, asumiendo que se está embarazada. Obvio. Pero, créeme, fácil de olvidar (yo suspendía a muchos alumnos por este tipo de errores de bulto cuando impartía un asignatura llamada «Métodos Estadísticos,» pero de eso ya hace 15 años).

Estas cosas tan obvias son tan fáciles de olvidar que hasta yo mismo he caído en la trampa varias en este blog (sobre todo cuando escribo entradas rápidas en las que pienso poco). Por ejemplo, si la probabilidad de obtener ciertos datos observados bajo la hipótesis de que no existe el bosón de Higgs en un cierto rango de masas es de solo el 5% (es decir, 95% CL), es incorrecto deducir a partir de estos datos que la probabilidad de que no exista un Higgs con una masa en dicho rango sea de solo el 5%. Lo confieso, en este fallo yo he caído yo varias ocasiones en este blog. Por eso me ha gustado el artículo de Louis Lyons, «Discovery or fluke: statistics in particle physics,» Physics Today 65: 45-51, July 2012, en el que basaré esta entrada.

En el enfoque bayesiano tenemos el «valor de un parámetro» (sea la masa del Higgs) y una serie de «datos observados» (sea el número de eventos tipo Higgs observados dividido entre el número de dichos eventos predichos bajo la hipótesis de que no exista el Higgs), con lo que el teorema de Bayes afirma que P(param|datos) ∝ P(datos|param) × P(param), siendo P(param) la probabilidad bayesiana a priori, que condensa todo lo que sabemos antes de realizar la observación sobre el resultado esperado (es decir, lo que predice el modelo estándar usando los valores de sus parámetros más recientes disponibles). Se llama función de verosimilitud P(datos|param) a la probabilidad de observar los datos si el parámetro tiene un valor dado. Finalmente, a P(param|datos) se le llama probabilidad bayesiana a posteriori, que corresponde al nuevo «conocimiento» que obtenemos gracias a los datos observados en el experimento. Esta probabilidad es la que se usa para calcular los intervalos de confianza, por ejemplo, al 68% CL o al 95% CL.

La estadística no es fácil e interpretar sus resultados es todo un arte (cuando yo impartía clases de esta materia mi libro de cabecera era «The Art of Probability for Scientists and Engineers,» de Richard W. Hamming, acompañado de los dos volúmenes de William Feller, claro). En la física de partículas lo más complicado es determinar las distribuciones de probabilidad a priori, lo que sabemos sobre las predicciones del modelo estándar para las colisiones observadas en ciertos detectores muy concretos. Porque puede parecer una tontería pero conocer hasta el último detalle de los detectores es fundamental para saber qué podrán observar ante un evento (colisión) concreta. En ciertos canales de búsqueda del Higgs donde el conocimiento de los detectores no es lo suficientemente bueno (porque no se han podido estudiar lo suficiente mediante rayos cósmicos en los últimos años y se requiere acumular más colisiones y experiencia), las probabilidades a priori deben de tener muy en cuenta este desconocimiento.

La técnica estadística fundamental en física de partículas es el contraste de hipótesis. Hay que decidir si los datos son compatibles con la hipótesis nula H0 (no hay ninguna partícula nueva en los datos, solo «ruido» de fondo) o con la hipótesis positiva H(hay una partícula nueva con ciertas propiedades, hay una «señal» además del «ruido» de fondo). Para contrastar ambas hipótesis hay que utilizar un parámetro observable (t en la figura). Cada hipótesis se observa como una distribución estadística (gaussiana en esta figura, pero no tiene porqué serlo). Conforme se acumulan datos, si la partícula buscada existe, ambas distribuciones se separarán un cierto número de desviaciones típicas (sigmas). En la figura se muestra una separación de tres sigmas entre la hipótesis positiva y la nula. Para un valor dado del parámetro, sea t’, se definen dos probabilidades p0 y p1 que corresponden a la fracción de área de la distribución correspondiente a cada hipótesis (como muestra la figura en los sombreados rojo y gris). Se proclama un descubrimiento cuando la probabilidad p0 está por debajo de un cierto valor (nivel) predefinido α. Igualmente, se excluye la hipótesis H1 si la probabilidad p1 está por debajo de un cierto valor (nivel) predefinido γ. Cuando para el valor t’ no se cumplen ninguno de los dos casos, no se puede tomar ninguna decisión (ni exclusión ni descubrimiento) y en física de partículas se dice que la variable no es suficientemente sensible aún. El valor α por consenso es 3 × 10−7, que corresponde a una cola gaussiana de 5 sigmas (5 σ) para la distribución de la hipótesis H0. El valor de γ por consenso es de solo el 5% (0,05). Por ello, quizás habría que hablar de valor «desfavorecido» en lugar de usar el término más habitual de valor «excluído.» Muchas veces, para evitar excluir demasiado pronto, se utiliza el cociente  p1/(1-p0) en lugar de  p1 para determinar la exclusión.

Una cuestión que le surgirá al lector inquieto es el problema de especificar los parámetros de la hipótesis positiva H1, parámetros que aún no conocemos (por ejemplo, en el caso del Higgs su masa). En ese caso también tenemos que tener en cuenta el efecto de «mirar a todos lados» (“look elsewhere” effect o LEE). Si solo hay «ruido» (hipótesis H0) en un intervalo de valores para el parámetro que sea grande es posible que haya fluctuaciones aleatorias importantes que podrían falsear el contraste de la hipótesis y hacernos pensar que hay señal donde no la hay. Una fluctuación local a 4 σ es muy probable en un intervalo muy grande, por lo que hay que normalizar la significación estadística de las hipótesis teniendo en cuenta este efecto. Cuando la evidencia de exclusión en dicho intervalo grande es alta (de varias sigmas), se puede reducir el tamaño de dicho intervalo. Como siempre en el arte de la estadística, la interpretación de este proceso está sujeto a costumbres que van siendo adoptadas, ganando cierto consenso, hasta que se convierten en una ley de facto, como la que afirma que un nuevo descubrimiento requiere 5 sigmas en al menos dos experimentos independientes.

Cómo medir la eficiencia energética de tu propio coche

Pere Roura (Universitat de Girona) y Daniel Oliu nos cuentan en «How energy efficient is your car?,» AJP 80: 588-593, July 2012, cómo medir de forma práctica la eficiencia energética de tu propio coche. Como ejemplo utilizan su Volkswagen Lupo 3L, un coche diseñado para ser muy eficiente con un motor diésel de tres cilindros, un peso de 830 kg y un consumo récord de solo 3 litros a los 100 km. Según su estudio solo el 28% de la energía del combustible se transfiere a las ruedas, lo que sin lugar a dudas es todo un récord en eficiencia para un vehículo comercial. Sin embargo, también nos recuerda que el 72% de la energía del combustible se pierde por aerodinámica, fricción, pérdidas mecánicas y térmicas. En los vehículos de gasolina, la eficiencia suele ser mucho menor. Para un vehículo típico se estima que solo el 12-13% de la energía del combustible se transmite a las ruedas, según el estudio de Joseph A. Carpenter, Jr. (Department of Energy, USA) et al., «Road Transportation Vehicles,» MRS Bull. 33: 439–444, 2008 [copia gratis], del que he extraído la figura de abajo.

 

Roura y Oliu nos proponen experimentos sencillos que los estudiantes de grado en ingeniería industrial, mecánica y otras titulaciones similares pueden ejecutar solo con conocimiento básicos de mecánica (resistencia del aire y a la rodadura) y termodinámica (ciclos térmicos). No traduciré todo su artículo, solo presentaré un breve resumen con las figuras clave, para que veáis cómo se realizan los experimentos y cómo se obtienen los resultados. Animo a los interesados en más detalles que consulten el artículo en la revista (American Journal of Physics), si tienen acceso, o que le pidan por correo electrónico una copia a Pepe Roura (que seguro que estará encantado por el interés despertado por su artículo).

Lo primero, calibrar el indicador de consumo de combustible del propio coche, comparando el consumo real (en litros por cada 100 km) y la lectura del sensor en una distancia grande, por ejemplo, 850 km. En el caso del Volkswagen Lupo 3L, la pantalla subestima el consumo real por un factor de 0,93.

El primer experimento tiene por objeto medir la eficiencia térmica del motor, comparando el consumo de combustible del coche a velocidad constante en varios tramos de carretera, tanto de pendiente ascendente como descendente. La diferencia entre el consumo de combustible por unidad de distancia cuando se va pendiente arriba (cu) y cuando se va pendiente abajo (cd) es igual a cu − cd = 2 m g h /(η QF d), donde m g h es el cambio en energía potencial del coche y el pasajero, d es la longitud de carretera recorrida, QF es la densidad de energía del combustible (3,56 × 107 Julios por litro para el diésel) y η es la eficiencia térmica del motor.

Este figura muestra el resultado obtenido para el consumo medio y para la eficiencia térmica del motor, cuyo valor está alrededor del 40% (dentro de las incertidumbres experimentales no depende significativamente de la velocidad). Este valor es bastante razonable para un motor diésel y no se puede esperar una eficiencia del motor superior al 40% salvo en los motores de camiones pesados o cuando se usan en sistemas de generación de energía eléctrica. Por supuesto, en este valor de la eficiencia no se han tenido en cuenta las pérdidas mecánicas del motor.

Estimar la resistencia del aire (FR) y la resistencia a la rodadura (FD) se puede realizar midiendo el tiempo (Δt) necesario para incrementar la velocidad del vehículo en una cantidad fija, pongamos Δv = 10 km/h; este tiempo depende de si el vehículo va cuesta arriba Δt+ o cuesta abajo Δt-. Los autores del artículo deducen la fórmula F = FR + FD = (1/Δt+ 1/Δt-) m Δv/2; la figura de arriba muestra que F sigue una trayectoria parabólica con la velocidad F = A + B v2, donde A = 110 N, y B =  0,33 N s2/m2. Como resultado, el coeficiente de fricción de los neumáticos con el asfalto αR, donde FR = αR N, se estima en αR = 0,011, un valor bajo, ya que según otros estudios el valor normal para los neumáticos está entre 0,010 y 0,015.

El coeficiente aerodinámico αD se define a partir de la fórmula  FD = αD ρ S v2/2, donde la densidad del aire ρ = 1,22 kg/m3 (a 500 m sobre el nivel del mar), el área de la sección transversal del coche es S (unos 1,56 m2 para el coche estudiado) y su velocidad media es v. El valor calculado es αD = 0,35, que está en la banda alta de los valores típicos para un coche que están entre 0,3 y 0,35, indicando que el Volkswagen Lupo 3L no es muy aerodinámico.

El consumo de combustible a menos de 2000 rpm es mayor rodando a 80 km/h que a 50 km/h, mientras que a 2700 rpm, este orden se invierte. En esta figura se muestra el efecto en el consumo de la marcha utilizada (cuarta, tercera y segunda) a estas dos velocidades 50 kmh y 80 km/h. La línea continua corresponde al trabajo mecánico («work») realizado por el motor, calculado multiplicando el consumo medio de combustible (c) y la eficiencia térmica del motor (η). A 50 km/h, la figura indica que el 60% de la energía del combustible se pierde en forma de calor dentro del motor y sólo el 40% realiza trabajo mecánico (línea gruesa). A 80 km/h el consumo de combustible crece debido al incremento en la resistencia del aire (la resistencia a la rodadura casi no cambia). Por ello, en términos generales, el consumo de combustible es superior a 80 km/h que a 50 km/h. Sin embargo, este orden se invierte por encima de unas 2000 rpm debido al incremento las pérdidas por fricción en el propio motor (que crecen con las revoluciones).

La eficiencia energética global del motor (ηB), llamada en inglés «brake efficiency,» se define como el cociente entre el trabajo útil desarrollado por el motor y la energía del combustible, es decir, ηB = Wu/(QF c), donde Wu es el trabajo útil por unidad de distancia, c es el combustible que se consume a lo largo de cierta distancia y QF es la densidad de energía del combustible. Como muestra la figura de arriba, esta eficiencia energética global no es constante y mejora conforme crece la marcha utilizada. Por ello se suele recomendar conducir a una marcha alta cuando se viaja a mayor velocidad.

Resumiendo todos los resultados se obtiene la figura que abre esta entrada. En un viaje típico, de cada 100 litros de combustible (diésel), solo 40 litros se convierten en trabajo, pero gran parte de este trabajo se consume en la fricción, con lo que solo unos 28 litros se transfieren a las ruedas. Este valor es más alto que el valor típico para un motor de gasolina, que está entre 12 y 13 litros.

Lo interesante de este estudio (aproximado) no son los resultados sino el método. Sencillo y fácil de repetir, cualquiera puede ponerlo en práctica con su propio vehículo, algo especialmente recomendado a los estudiantes de ingeniería. Por supuesto, si algún valiente se atreve que nos cuente sus resultados en los comentarios.

Por qué es necesario el Colisionador Lineal Internacional (ILC) para estudiar el Higgs en detalle

Esta figura de Michael E. Peskin compara la capacidad del LHC (Gran Colisionador de Hadrones) y del ILC (Colisionador Lineal Internacional) para medir los acoplamientos del bosón de Higgs con 125 GeV a las demás partículas del modelo estándar. El color morado («LHC») corresponde al LHC con colisiones protón-protón a 14 TeV y unos 300 /fb de datos (que se esperan para 2023); el color azul («HLC») corresponde al ILC con colisiones electrón-positrón a 0,25 TeV y 250 /fb de datos; el color rojo («ILC»)  corresponde al ILC con colisiones a 0,5 TeV y 500 /fb de datos; y el color marrón («ILCTeV») al ILC con colisiones a 1 TeV y 1000 /fb de datos. La banda punteada corresponde a un error del 5%. Claramente se ve que el LHC es incapaz de lograr un error menor del 5% en muchos canales, con lo que no se podrá estar seguro nunca de si el bosón de Higgs observado corresponde al bosón de Higgs predicho en todos estos canales con una confianza estadística del 95% CL. Para estar seguro será necesario el ILC que obtendrá un error menor del 3% en casi todos los canales. Aún así, la cuestión de cuándo se proclamará con seguridad que el bosón de Higgs observado es el predicho es una cuestión de consenso y dependerá de la opinión de la comunidad, reflejada en la de la dirección del CERN, pero obviamente será antes de 2023 (cuando inicie sus colisiones el ILC). Nos lo cuenta Michael E. Peskin, «Comparison of LHC and ILC Capabilities for Higgs Boson Coupling Measurements,» arXiv:1207.2516, Submitted on 11 Jul 2012. La nomenclatura utilizada  (W, Z, b, g, …, inv) se aclara en la siguiente tabla, que presenta los números utilizados en la gráfica para el LHC.

Por cierto, el canal más impreciso es el asociado al quark top, ee→tth. Uno de los acoplamientos más interesantes para el Higgs pero que será muy difícil de estudiar con precisión porque la masa del Higgs es mucho más pequeña que la del doble de un top. La siguiente tabla muestra los números detallados para las tres versiones del ILC presentados en la figura que abre esta entrada.

Los interesados en saber cómo se pueden verificar utilizando estos canales de búsqueda todas y cada una de las propiedades del bosón de Higgs pueden consultar S. Bolognesi et al., «Determination of properties of a Higgs-like resonance at LHC: separation of spin hypotheses,» ICHEP 2012, 4-11 July. Más información en Yanyan Gao et al., «Spin determination of single-produced resonances at hadron colliders,» Phys. Rev. D 81: 075022, 2010 [arXiv:1001.3396]. Resumiendo mucho, la clave es la distribución angular de los productos de desintegración que se estudia en CMS y ATLAS mediante un análisis MELA (Matrix Element Likelihood Approach).