¿Golpe fatal contra ENCODE y la «utilidad» del ADN «basura»?

Una de las grandes noticias científicas de 2012 fue la publicación de los resultados del proyecto ENCODE (ENCyclopedia Of DNA Elements), que reclamaban una «función» bioquímica para gran parte del mal llamado ADN basura («junk ADN» que no «garbage ADN»). Este resultado requería una revisión de ciertos aspectos de la teoría evolutiva y la genética, por lo que causó un gran enfrentamiento entre los expertos. Se han escritos muchos artículos en contra de la posible «función» del ADN basura, pero el definitivo es Dan Graur et al, «On the immortality of television sets: “function” in the human genome according to the evolution-free gospel of ENCODE,» Genome Biology and Evolution, AOP February 20, 2013 [copia gratis]. Me he enterado vía Robin McKie, «Scientists attacked over claim that ‘junk DNA’ is vital to life. Rivals accuse team of knowing nothing about evolutionary biology,» The Guardian, 24 Feb 2013, por lo que he buscado con urgencia a PaleoFreak (gran crítico de ENCODE en Twitter) y me he encontrado con un aplastante y demoledor «Golpe final al ENCODE (y viva el ADN basura),» 21 Febrero, 2013. Recomiendo su lectura, «no exenta de ironía y cierta crueldad.»

El nuevo artículo es contundente. El Consorcio ENCODE ha caído en una falacias lógica llamada afirmar el consecuente: Si A→B, y se da B, entonces se da A (lo correcto es el modus ponens: Si A→B, y se da A, entonces se da B). En concreto, los trozos de ADN que muestran una función biológica suelen mostrar ciertas propiedades, como se han observado trozos de ADN con las mismas propiedades, entonces dichos trozos de ADN tienen una función biológica (donde A=función y B=propiedad). Por ello, el Consorcio ENCODE ha publicado que más del 80% del genoma humano es funcional, es decir, que casi todos los nucleótidos tienen una función y que estas funciones se conservan evolutivamente sin sufrir selección. Todo indica que el proyecto ENCODE abusa del concepto «función» olvidando el último siglo de genética, que ha demostrado que sólo el 10% del genoma humano se ha conservado evolutivamente gracias a la selección; si fuera cierta la afirmación de ENCODE, el 70% del genoma humano sería invulnerable a mutaciones perjudiciales (un sinsentido en genética y teoría evolutiva). ENCODE ha caído también en la trampa de la apofenia, consistente en ver patrones y conexiones entre sucesos y datos aleatorios. Para ello han utilizado métodos experimentales que sobreestiman de forma consistente la posible «funcionalidad» de cada nucleótido.

En biología se pueden usar dos significados diferentes para la palabra «función» que no hay que confundir. Por un lado, la función seleccionada («selected effect» en el artículo de Graur et al.) que es resultado de la selección natural y se ha conservado porque permite al ser vivo estar mejor adaptado a su entorno. Y por otro lado, la función circunstancial («causal role» en el artículo de Graur et al.) que no tiene nada que ver con la selección y la evolución (por ejemplo, la función del corazón es bombear sangre, pero también tiene otras funciones circunstanciales, como producir sonidos, incrementar el peso corporal, etc.). El proyecto ENCODE abusa del concepto de función circunstancial al afirmar que un trozo de ADN tiene «función» si (1) es transcrito, o (2) está asociado a una histona modificada, o (3) está en una zona donde la cromatina está abierta, o (4) se acopla a factores de transcripción, o (5) contiene dinucleótidos CpG metilados. Estas funciones circunstanciales no son funciones seleccionadas y por tanto no son «funciones» en un sentido biológico estricto.

Una cuestión que permea el trabajo del Consorcio ENCODE es la función que tienen los intrones. Los genes en células eucariotas están divididos en intrones y exones, los primeros tras ser transcritos a ARN son «desechados» mientras que los segundos se unen entre sí para formar las secuencias de ARN mensajero que son traducidas a proteínas en los ribosomas. Los intrones no codifican proteínas y su papel biológico no está claro, por lo que la decisión del Consorcio ENCODE de marcarlos como «funcionales» es excesiva y muy discutible. Otra cuestión importante es el papel de los transposones, trozos de ADN que pueden moverse a lo largo del ADN y que constituyen alrededor del 30% del genoma humano y alrededor del 31% del transcriptoma humano. No está claro si algunos transposones tienen una «función» biológica, pero parece claro que la mayoría son simples parásitos, parásitos de parásitos y restos de parásitos. Asignarles una función no tiene sentido biológico.

Desde un punto de  vista metodológico, el proyecto ENCODE cae en graves errores. Para comprobar si algo tiene o interviene en una función hay que eliminarlo y comprobar que la función desaparece o se modifica. Cualquier otra opción es incorrecta desde un punto de vista metodológico. El consorcio ENCODE cae en este tipo de errores constantemente.

¿Ha merecido la pena el proyecto ENCODE? ¿Servirá para algo todo el dinero gastado en este proyecto? Solo el tiempo lo dirá. En ciencia, como en las batallas, el reposo del guerrero es necesario para valorar la gesta.

Los «virus informáticos» del ADN

La noticia de la semana, la publicación de los resultados del proyecto de la Enciclopedia de Elementos de ADN (ENCODE) me ha provocado un revoltijo mental en todo lo que yo creía que sabía sobre el ADN. Ahora mismo creo que lo que llaman «ADN basura» (junk DNA) debería llamarse «ADN confuso» o «ADN desordenado» (clutter DNA); incluso, sin ánimo de resultar malsonante, yo lo llamaría «clutterfuck DNA.» Gran parte del ADN está compuesto de transposones, trozos de ADN que actúan como «virus informáticos» capaces de moverse y de copiarse a sí mismos. Gran parte de la «actividad bioquímica específica» observada por el proyecto ENCODE podría ser resultado de la actividad de estos «virus informáticos» que plagan nuestro genoma como el «spam» lo hace en nuestro correo electrónico. Te recomiendo leer Sean Eddy, «ENCODE says what?,» Cryptogenomicon, September 8th, 2012. Sobre los errores que yo mismo en este blog y gran parte de los medios hemos cometido a la hora de interpretar los resultados de ENCODE también recomiendo Mike White, «ENCODE Media FAIL (or, Where’s the Null Hypothesis?),» The Finch & Pea’s, 6 September 2012.

Todo experimento científico tiene que basarse en una hipótesis nula. Qué pasaría si se aplicara la tecnología de ENCODE a un genoma sintetizado al azar, pongamos que sea un cromosoma de unos cien millones de bases de ADN obtenido con un generador de números aleatorios. ¿Cuántos elementos de este ADN serían transcritos? ¿A cuántos de estos elementos se uniría alguna proteína? ¿Cuántos se comportarían como marcas en la cromatina? ¿Cuántas «funciones bioquímicas» en el sentido utilizado por el proyecto ENCODE serían incluidas en la «wikipedia del ADN»?

Me explico. En casa tienes dos tipos de «basura» bien diferenciadas; por un lado, ese revoltijo de objetos que una vez te fueron útiles, pero ahora no lo son, que guardas porque te traen recuerdos o simplemente por que sí; y por otro lado, las cosas que deseas desechar, que consideras desperdicios que dentro de unas horas acabarán en la bolsa de basura y en el contenedor de basura de la esquina. En ciertas ocasiones ambos tipos de «basura» se encuentran a tu alrededor, incluso pueden llegar a confundirse.

El tamaño no siempre importa, al menos respecto al ADN. Dos especies similares evolutivamente pueden tener genomas de tamaño muy diferente. La diferencia está en la cantidad de transposiciones que contienen. Los transposones, como ilustra el vídeo que abre esta entrada, son elementos o trozos de ADN que actúan como «virus informáticos» moviéndose por el resto del ADN, copiándose a sí mismos, dentro del genoma del huésped. Barbara McClintock recibió el Nobel de Fisiología o Medicina en 1983 por su descubrimiento.

Sean Eddy nos recuerda que casi el 10% del genoma humano está compuesto por casi un millón de copias del transposón Alu, que contiene unas 300 bases. Estos  transposones están relacionados con ciertos virus y se cree que son parásitos del ADN. Se infiltran en el genoma, se reproducen, se multiplican, se difunden, y acaban muriendo, mutando o decayando, dejando como rastro del pasado ciertas secuencias de bases. En general, los Alu saltan de un lugar a otro dentro de la parte no codificante del ADN que podemos llamar «ADN basura» y, que se sepa, no tiene ningún efecto apreciable sobre nosotros. Algunos animales, como las salamandras, tiene su ADN repleto de transposones, por ello su longitud es unas diez mayor que la nuestra.

¿Cuánto ADN humano está anotado como transposones? Más o menos el 50%. ¿Podemos llamar a este 50% como «ADN basura»? Obviamente, tiene «funciones bioquímicas» o «actividad bioquímica específica,» pero podemos prescindir de ello sin afectar a la biología de nuestras células, por lo que podemos decir que no tiene «función biológica.» ¿Pero seguro que los transposones no tienen «función biológica» alguna? Bueno, hay excepciones que confirman la regla, pero los datos de ENCODE no permiten afirmar (al menos todavía) que así ocurra con la mayoría de ellos.

Lo que hay que tener claro es que solo el 1% del ADN codifica proteínas (son genes en sentido estricto), que entre el 1-4% no codificante actúa como regulador de la expresión de los genes, y que entre el 40-50% son transposones a los que podríamos llamar «ADN basura.» El ADN restante, entre el 40-50% todavía no se sabe muy bien qué papel juega o si tienen alguna «función» específica. El objetivo del proyecto ENCODE es aclararlo, pero los resultados publicados hasta ahora son un primer paso y no se puede afirmar que el término «función bioquímica» implica un cambio en el fenotipo o una «función biológica» en sentido estricto.

Hay una gran diferencia entre los dos tipos de «basura» que tienes en tu casa, la que acabará como desperdicio y la que atesorarás por mucho tiempo. Esta última puede que un día acabe como desperdicio, o puede que le encuentres alguna utilidad práctica. Gran parte del «ADN basura» puede ser de este segundo tipo y quizás la evolución acabe dándole una «función biológica» algún día.

La importancia del proyecto ENCODE en el estudio genético de las enfermedades

El objetivo del Proyecto Genoma Humano era determinar todos nuestros genes (las regiones del ADN humano que codifican proteínas) con objeto de utilizar dicha información en la prevención y tratamiento de enfermedades. Once años más tarde sabemos que dicho objetivo era muy optimista y que muy pocas enfermedades tienen como único origen en mutaciones de los genes. Hoy en día sabemos que las regiones no codificante del ADN, que regulan y controlan la expresión de los genes, son mucho más prometedoras que los genes en biomedicina. Matthew T. Maurano (Universidad de Washington, Seattle, EEUU) y sus colegas publican en Science un estudio basado en los datos de los proyectos ENCODE y 1000 Genomes Project que muestra que la mayoría de las enfermedades humanas en las que está implicado el ADN están relacionadas con variaciones, incluso de un solo nucléotido, en regiones no codificantes asociadas la regulación de la expresión génica. El artículo técnico es Matthew T. Maurano et al., «Systematic Localization of Common Disease-Associated Variation in Regulatory DNA,» Science 337: 1190-1195, 7 September 2012.

El estudio del genoma de miles de personas con diferentes enfermedades ha permitido determinar miles de loci asociados con enfermedades humanas, pero la mayoría aumentan muy poco la probabilidad de padecer dicha enfermedad, por lo que su valor diagnóstico es muy limitado. Lo sorprendente es que solo el 5% de estas variantes se encuentran en las regiones codificantes del ADN (los genes) y en las implicadas en la regulación directa de la expresión génica (promotores, represores o sitios donde se acoplan los factores de transcripción). El resto, repito, el 95% de estas variantes, se encuentra en la parte no codificante del ADN. ¿Qué papel tienen entonces? Muchos de ellos están entre los más de 4 millones de interruptores de genes que se encuentran en las reguladores del ADN que son hipersensibles a la DNAsa I (desoxirribonucleasa I) que ha catalogado el proyecto ENCODE (la enciclopedia de trozos de ADN). Estos sitios EDS (hipersensibles a la DNAsa I) actúan como «interruptores» de control que el proyecto ENCODE ha sido capaz de descubrir gracias al estudio de 147 tipos de células (o de tejido) diferentes. El 88% de los EDS se encuentran activos durante el desarrollo fetal y pueden estar relacionados con las variaciones del fenotipo asociadas a la gestación. Además, muchos EDS regulan la acción de genes muy distantes en el ADN,

En resumen, el nuevo estudio deja claro que muchas variaciones en el ADN están relacionadas con muchas enfermedades comunes y que permiten relacionar entre sí enfermedades que de otra manera parece que no tienen ninguna relación entre sí. El papel futuro del ADN en la biomedicina, que parecía poco relevante a partir de los resultados del Proyecto Genoma Humano, a la vista de los nuevos resultados parece adquirir un papel clave. Solo el tiempo dirá si estos resultados realmente acaban teniendo una utilidad diagnóstica y posibilitan nuevos tratamientos para muchas enfermedades comunes.

El proyecto ENCODE ha costado unos 288 millones de dólares en total, pero como nos dice el biólogo molecular Mathieu Lupien (Universidad de Toronto, Canadá), miembro del proyecto, «cada dólar invertido en este proyecto ha merecido la pena.» Como nos recuerda Elizabeth Pennisi en «ENCODE Project Writes Eulogy for Junk DNA,» Science 337: 1159-1161, 7 September 2012.