Subscribe RSS

Por Morgan Echeverry Solarte


Recientemente se cumplieron 10 años del anuncio por parte de Bill Clinton, Francis Collins y Craig Venter de la secuenciación del 98% del genoma humano. Desde ese entonces (y sin duda desde mucho antes) las especulaciones respecto a los alcances de este proyecto han estado al orden del día. Muchos vieron (y han visto) en este proyecto la solución a crueles enfermedades como el cáncer y el Alzheimer, mientras que otros han argumentado con vehemencia los riesgos éticos que conllevaría el conocimiento del genoma humano. Así pues, parecía que los científicos estaban abriendo una caja de Pandora con insospechadas consecuencias.

Sin embargo, muchos hoy esperan por los aclamados logros o radicales cambios que alcanzaría el proyecto. El propio Francis Collins acepta con un poco de resignación que estamos aún lejos de poder impactar masivamente la salud pública, mientras que Venter argumenta que la revolución solo estaba empezando y que serán necesarias computadoras con mucho mas poder de análisis. Así pues, se ha ratificado que la Caja que Pandora pretendía abrir para conocer los secretos de la biología humana era más compleja de lo que se esperaba.

Aunque la decepción por los alcances inmediatos de conocer el “Santo Grial” de la vida no se pueden esconder, tampoco se puede echar a saco roto los avances a largo plazo que esto significó y las semillas que plantó para una nueva etapa de investigación que hoy se está viviendo. Etapa que curiosamente es mucho más sigilosa (al menos ante los medios de comunicación), pero que está dando a Pandora nuevas herramientas, a la vez que la está poniendo ante un desafío para abrir su caja: La comprensión sistémica de cientos de secuencias así como de datos fisiológicos y ambientales. En esta nueva fase de estudios, en lugar de utilizar el ADN de un solo individuo y así buscar una sola secuencia consenso, se están usando enormes poblaciones de individuos con la finalidad de conocer en detalle la variación genética. Durante esta nueva etapa, enormes esfuerzos se han hecho en tratar de entender complejas características (tales como el cáncer) en donde muchísimos genes están envueltos. Algunos científicos se sienten optimistas con los nuevos logros alcanzados, mientras que otros aún siguen precisando que difícilmente podremos reducir el entendimiento de complejas enfermedades a solo genes.

En el presente ensayo narraremos brevemente los cambios y avances investigativos que se presentaron y se están presentando tras la consecución de los Proyectos genómicos. En el curso de esta descripción nos centraremos en uno de los protagonistas que están produciendo estos cambios: las nuevas técnicas de secuenciación. Estos instrumentos los consideraremos como nuevas herramientas que Pandora en potencia podría usar para seguir abriendo su caja; de hecho apreciaremos que desde ya están impactando diferentes campos de investigación genética. Al final evaluaremos si estos nuevos avances serán suficientes para que Pandora abra su caja.



De los Marcadores Moleculares a las Nuevas Técnicas de Secuenciación

Dentro de la biología un marcador es un carácter, una molécula o un gen cuya presencia está altamente correlacionada con la presencia de otro carácter. Así pues, en el caso de los marcadores moleculares, son secuencias de ADN que están correlacionadas con la presencia de un gen o un carácter. Durante los años 80’s y 90’s los marcadores moleculares fueron trascendentales en la construcción de mapas genéticos (un representación gráfica de los cromosomas donde se localizan los marcadores y sus asociación con una característica) en una gran variedad de especies. El empleo de los marcadores moleculares y de los mapas genéticos fue muy exitoso en el entendimiento de características cualitativas donde solo uno o pocos genes están estrechamente correlacionados con una característica determinada. Sin embargo, han sido poco útiles para dilucidar la genética de complejos caracteres cuantitativos (como el cáncer, obesidad, hipertensión o diabetes), en los cuales muchos genes están asociados. Para tratar de entender estos complejos caracteres, los científicos se enfocaron en pequeños cambios que se presentan dentro de las poblaciones y que son conocidos como SNPs (acrónimo en inglés de Single Nucleotide Polymorphism, que se traduciría al español como polimorfismos de un solo nucleótido). Aunque más de un 99% de las secuencias en las poblaciones humanas son iguales, las pequeñas variaciones existentes pueden tener un impacto en cómo los humanos responden a enfermedades, factores ambientales, drogas y terapias [1]. Así pues, los SNPs tienen un importante valor en la compresión de la genética, debido a que se tratan de alteraciones en un solo nucleótido.

Desde mediados de los 90’s los científicos han considerado que los SNPs son la clave para la compresión de caracteres cuantitativos, siendo por esto que uno de los objetivos del Proyecto Genoma Humano fue el de encontrar 3.7 millones de SNPs [2]. Sin embargo la manera de establecer las asociaciones entre un SNPs y un carácter (como por ejemplo, una enfermedad) son difíciles de realizar mediante los métodos de análisis genético tradicionales, ya que un solo SNP puede tener una pequeña contribución sobre el carácter. Debido a esto apareció dentro del análisis genético una estrategia conocida como mapeo por asociación. Este tipo de estudios se caracterizan por ser estudios a gran escala, donde centenares (sino miles) de secuencias de ADN (usualmente SNPs) son comparadas entre muchísimos individuos. Los mapas por asociación pueden ser desarrollados mediante (1) asociación de genes candidatos (genes que a través de previos estudios se sospecha tienen un rol importante en la característica estudiada) o mediante (2) mapeo de asociación genómica (del inglés Genome-Wide Association Studies, GWA; también conocidos en inglés como whole genome association study, WGA) [4]. Los GWA son considerados por muchos genetistas y biólogos moleculares como la más importante táctica desarrollada para la compresión de caracteres complejos, de tal forma que pudiese ser considerada como la mejor estrategia de Pandora para seguir abriendo su caja. Sin embargo vale la pena mencionar que como su nombre lo índica involucra un estudio sistémico de todo un genoma y no una reducción a pocos genes.

El poder de los GWA se centra en el conocimiento de un gran número de SNPs. Es por eso que tras la culminación del Proyecto Genoma Humano este esfuerzo fue centralizado con la creación del proyecto Internacional HapMap [5] cuya finalidad es identificar y catalogar las similaridades y diferencias genéticas entre humanos. Para llevarlo a cabo, el proyecto ha usado ADN de diferentes poblaciones del mundo: Nigeria, Japón, China y residentes de USA cuyos ancestros son Europeos occidentales. En términos técnicos, el proyecto usa Chips de ADN (microarreglos) con centenares de SNPs con la finalidad de realizar las comparaciones entre las poblaciones. De esta forma el proyecto HapMap ha logrado dilucidar la diversidad genética humana a nivel de las variaciones comunes, sin embargo, estas variaciones no han logrado explicar muchas de las enfermedades humanas, por lo que se espera que en variaciones menos frecuentes (raras) este la clave [6].

Hasta hace muy pocos años, encontrar las pequeñas y raras variaciones en el ADN era un enorme reto técnico debido a que se hacía necesario secuenciar grandes poblaciones humanas. Sin embargo, en los últimos cinco años nuevos secuenciadores y técnicas de secuenciación han revolucionado el mundo genético y biotecnológico, a tal punto que muchos hablan que se está presentando una nueva revolución genética [4, 7]. Esta nueva revolución está dando una mejor compresión de la genética de caracteres complejos y pareciera que Pandora se acerca más al conocimiento del interior de su caja. A continuación describiremos las principales características de estas nuevas técnicas de secuenciación.


La Nuevas Herramientas de Pandora: Nuevas técnicas de Secuenciación

A diferencia con el método tradicional de secuenciación conocido como método de Sanger, las nuevas técnicas de secuenciación se caracterizan por obtener resultados sobre secuencias cortas (35-250 pb en comparación al método de Sanger, en el que se secuencian fragmentos entre 650-800 pb). Esta característica fue vista inicialmente como una desventaja por parte de los investigadores [8]. Sin embargo, con el advenimiento de complejos programas bioinformaticos, el ensamblaje y unión de estas cortas secuencias ha permitido dilucidar genomas enteros. Igualmente estas técnicas se caracterizan por su capacidad de procesar millones de muestras en paralelo en lugar de 96 como lo hacia el método de Sanger. Adicionalmente, las secuencias producidas en las nuevas técnicas son obtenidas a través de “librerías de ADN” en las cuales no es necesario los procesos de clonación en Escherichia coli [9].

Actualmente, podemos encontrar seis nuevos tipos de plataformas (término usado para referirse al sistema: máquina-programa) usadas en la secuenciación. Las plataformas Roche 454 GS FLX, Illumina Genome Anlayzer IIx, ABI SOLID 3 plus System y Pollinator G.007 son basadas principalmente en Reaccion en Cadena de la Polimerasa (PCR, en ingles). Mientras que las más recientes plataformas Helicos Genetic Analysis y Pacific Biosciences SMRT technology no son basadas en PCR sino en la secuenciación de una sola molécula [10]. Otra característica importante a nombrar son los altos precios que aun se tienen por estas plataformas. Los costos van desde los US$ 170.000 para el caso del Pollanator hasta US$ 999.000 en el caso de Helicos [10]. Por tales motivos, muchos laboratorios que poseen estos poderosos aparatos son el resultado de consorcios investigativos entre sectores públicos y privados. Finalmente, en cuanto a detalles operativos y técnicos, las nuevas metodologías de secuenciación basas en PCR presentan dos importantes fases: 1. Unos pasos de pre-secuenciación, donde una “librería” de ADN es creada usando adaptadores específicos (secuencias de ADN) y subsecuentes variaciones de la PCR, y 2. El uso de una química específica de secuenciación. Es importante anotar, que actualmente las tecnologías que más han impactado la investigación han sido Roche 454 GS FLX e Illumina Genome Analyzer IIx. A continuación daremos una breve descripción de ellas.

La plataforma Roche (454) GS FLX sequencer fue introducida al mercado en 2004 por la popular multinacional Roche y su división Life Science. Esta fue presentada a la comunidad científica en 2005 por Margulies et al. (2005) [11] al secuenciar de novo el genoma bacterial de Mycoplasma genitalium. Los resultados obtenidos por estos autores fueron comparados con la secuencia previamente obtenida por el método de Sanger, resultando en un 99.96% de precisión. Dentro de las principales características técnicas usadas con esta plataforma, están la inmovilización del ADN a secuenciar por medio de unas esferas con afinidad específica (o cuentas de collar, del inglés beads), y la creación de una librería de ADN a partir de una modificación de la PCR conocida como PCR de emulsión. Este proceso usa burbujas de un tipo especial de emulsión, las cuales impide que haya competencia entre otro tipo de templados de ADN. La secuenciación es desarrollada sobre una placa especial de titulación conocida en ingles como “PicoTiterPlate“. Los diminutos pozos de esta placa permiten que solo una esfera con millones de copias de un fragmento de ADN sea incorporada dentro de ellos. Una vez realizado este procedimiento las enzimas de secuenciación son depositadas sobre los pozos de la placa. La placa es entonces llevada al secuenciador donde la reacción química conocida como secuenciación mediante síntesis o pirosecuenciación es llevada a cabo. Es importante recordar que el proceso de pirosecuenciación se estará realizando paralelamente en cada uno de los pozos de la microplaca de titulación con diferentes moléculas, de tal forma que cientos de señales luminícas son leídas a la vez. De esta forma es posible producir aproximadamente 100 Mb de datos de secuencias por 7 horas de corrida con un promedio de longitud de lectura de 250 pares de bases. Resultado que contrasta con el ABI 3730 programado para desarrollar la secuenciación tradicional de Sanger, donde es producido 440 kb de datos de secuencia en 7 horas, con un promedio de longitud de lectura de 650 pares de base por muestra [9]. Una descripción en multimedia del funcionamiento de la Plataforma Roche 454 GS FLX así como del proceso de pirosecuenciación puede ser observada en las referencias [12] y [13] respectivamente.

Por su parte, la empresa norteamericana Illumina introdujo al mercado en el año 2006, la plataforma conocida como Illumina Genome Analyzer. Esta es basada en el concepto de secuenciación mediante síntesis, el cual permite producir secuencias de 32 a 40 pares de bases de decenas de millones de fragmentos de ADN [9]. Dentro de las principales características técnicas de esta estrategia está el uso de una celda de flujo de vidrio (del inglés glass flow cell). Esta celda es compuesta de 8 líneas en las cuales se encuentran oligos covalentemente unidos a la superficie. Estos oligos se hibridan con el ADN a secuenciar mediante la ayuda de adaptadores y de tratamientos de temperatura. Reactivos de PCR son añadidos sobre estas celdas con el fin de amplificar los fragmentos en áreas discretas o “clusters” [9]. Esta PCR es conocida como amplificación en puente y determina el fin de los pasos de la pre-secuenciación. A continuación las celdas son llevadas a la plataforma Illumina Genome Analyser con la finalidad de iniciar la secuenciación. Dentro de ella, cada cluster es suplido con polimerasa y nucleótidos que tienen su 3’OH químicamente inactivado, con la finalidad de incorporar solo una base por ciclo [9]. De esta forma cada base que se incorpora en cada cluster es registrada por la plataforma. Este proceso se repite por cada nucleótido. Al final de cuatro días aproximadamente, la secuencia de cada cluster es registrada llevándose a cabo los subsecuentes análisis de resultados. Para la comprensión gráfica de este proceso, se recomienda seguir la referencia [14].


Impactos de las Nuevas Técnicas de Secuenciación Sobre la Genética Humana

El campo de investigación biológica que más ha sido impactado por la nueva estrategia de Pandora (los GWA) y sus nuevas herramientas (las nuevas técnicas de secuenciación) ha sido sin duda la genética humana. El primer impacto fue publicado en el año 2008 cuando la secuencia completa del Doctor James D. Watson fue conseguida mediante la plataforma Roche (454) GS FLX sequencer [15]. Esta publicación constituyó un hito dentro de la historia de la genética humana, debido a que previamente había sido imposible secuenciar de manera rutinaria el genoma entero de una persona. El proyecto genoma humano, desarrollado durante los años 1990 a 2001, había revelado una secuencia consenso del las 3200Mb que componen el genoma de los seres humanos. Sin embargo, esta secuencia consenso era el paso inicial para empezar a estudiar en detalle la biodiversidad genética humana, ya que aun eran necesarias metodologías rutinarias para una “secuenciación personalizada”. La secuencia del doctor Watson fue obtenida en tan solo dos meses, representando un avance gigantesco en cuanto a la efectividad del método, teniendo en cuenta que la consecución de la secuencia consenso del genoma humano fue obtenida tras 11 años de investigación.

Considerando la experiencia del proyecto HapMap, en el año 2008 fue lanzado el proyecto 1000 genomas (1000 Genomes Project) con la finalidad de encontrar las variantes genéticas cuyas frecuencias son menores a 1% usando las nuevas plataformas de secuenciación [16]. Se espera que los resultados de este proyecto complementen y fortifiquen los GWA, permitiendo encontrar con mayor precisión las verdaderas regiones de ADN donde se encuentran los genes relacionados con ciertas características poligénicas. Es importante anotar, que el espectro de individuos en este proyecto es mucho más amplio en relación al HapMap, e incluye poblaciones latinas, estando entre ellas un grupo de Medellín (Colombia) [16].


Impactos de las Nuevas Técnicas de Secuenciación Sobre Investigación Animal y de Plantas

Desde siempre, los adelantos obtenidos en genética humana han sido extrapolados a la investigación en otros campos biológicos, lo que indicaría que la caja de Pandora no solo se abriría en la biología humana, sino en toda la biología en su conjunto. Sin embargo, a diferencia de las investigaciones realizadas en los humanos, muchos de los estudios en plantas y animales usando nuevas tecnologías de secuenciación y aplicando GWA estrategias se encuentran en pasos iniciales. En el caso de las plantas, es importante mencionar el caso del proyecto 1001 genomas de Arabidopsis thaliana lanzado en 2008 cuya finalidad es descubrir la variación a nivel de genomas enteros de 1001 accesiones de arabidopsis. Su forma de operar es similar a la del proyecto realizado en humanos, sin embargo una de las grandes diferencias, es que en plantas podemos generar infinitos clones de cada una de las accesiones creadas, lo cual redunda en la posibilidad de evaluar las plantas en gran diversidad de ambientes [17].

En el caso particular de plantas y animales usados agrícolamente, las nuevas tecnologías de secuenciación constituyen un avance para aquellas especies consideradas como huérfanas, en relación a estudios moleculares. Es bien conocido que organismos como el maíz, el arroz, caballos, pollos o vacas han sido estudiados bajo proyectos de secuenciación de sus genomas, sin embargo otras especies de mediana o poca importancia no han sido estudiados al mismo nivel. Dadas las características de estas nuevas metodologías, se espera que el número de especies estudiadas a nivel molecular incremente significativamente [18]. En el campo del mejoramiento genético de plantas y animales, se espera que las nuevas tecnologías permitan encontrar mucho más fácil nuevos marcadores moleculares, así como el desarrollo de complejos estudios de asociación de genomas completos [18].

Por otra parte, se espera que las nuevas tecnologías de secuenciación impacten a su vez estudios filogenéticos, estudios de radiación adaptativa, así como estudios de conservación en animales y plantas. Las nuevas tecnologías de secuenciación permitirán incrementar la cantidad de información en el momento de realizar filogenias, por lo que se espera que la resolución (posibilidad de ver diferencias entre individuos) de éstas mejore significativamente [10]. Por otro lado, los estudios de radiación adaptativa se verán muy beneficiados al contar con la capacidad de secuenciar rápidamente el ADN de individuos adaptados bajo determinadas condiciones. Esto permitiría en potencia la identificación de loci relacionados con variaciones morfológicas, variaciones en comportamiento y/o variaciones fisiológicas [10]. Así mismo, los estudios de conservación se verán beneficiados por la relativa facilidad de encontrar nuevos SNPs y microsatélites, los cuales se han usado tradicionalmente en esta disciplina. Sin embargo, quizás el mayor avance, es que podrán analizarse la secuencia de cientos de individuos en corto tiempo, lo cual permitirá incrementar la precisión de estos estudios de secuenciación [10].


¿Podrá Finalmente Pandora abrir su Caja?

Hacia el año 2005, antes de la aparición de los primeros estudios de asociación genómica (GWA) hubo un importante escepticismo respecto a sus alcances. Sin embargo, en 2008 los logros de este tipo de estudios superaron hasta los pronósticos más optimistas, ya que se identificaron 250 loci en los cuales variaciones genética comunes ocurren y que están asociadas con características poligenéticas [7]. Siendo lo más importante aún, que estos loci eran reproducibles entre estudios, ya que muchas de las fallas en las previas investigaciones era la poca reproducibilidad entre poblaciones. Sin embargo aun faltaba conocer más respecto a variaciones poco frecuentes tal y como lo explicábamos previamente. La aplicación de las nuevas técnicas de secuenciación parecieran estar solucionando este problema, ¿significa esto que finalmente Pandora abrirá la caja de la vida? Los optimistas pareciera que han aprendido de los errores del pasado, y ahora exponen de manera más conservadora los logros que podemos alcanzar. De acuerdo a ellos, el fin último de los GWA no es tanto la predicción del riesgo a enfermedades, sino el entendimiento de la compleja genética y redes bioquímicas que están envueltas en estas complejas características. Ellos ven esto como un primer y significativo avance que está generando información nueva a gran escala, la cual podría ser usada en el futuro para determinados fines. Nuevamente ellos están confiados que con la implementación de las nuevas tecnologías de secuenciación, logremos conocer las variantes genéticas poco frecuentes en las poblaciones, las cuales a su vez indique nuevas luces en el conocimiento de la caja de la vida. En este sentido, los resultados del 1000 Genomes Project serán fundamentales.

Por su parte, los escépticos piensan que el valor de estos descubrimientos es modesto ya que las variantes genéticas encontradas tienen pequeños efectos sobre la heredabilidad. Otro argumento, en contra es que se cree que los GWA determinarán que muchísimos genes están afectando las características, a tal punto que se podría llegar a concluir que cada gen en el genoma teóricamente podría estar implicado en la característica estudiada, situación que obviamente se hace ineficiente. Los genetistas entonces se encuentran divididos en precisar los verdaderos alcances de las nuevas estrategias y de los últimos avances tecnológicos. En nuestro concepto, Pandora cada vez cuenta con más herramientas sofisticadas que le dan mucha más información, pero que curiosamente cada vez le demuestran que su caja no puede ser abierta desde la simple reducción de unos pocos genes. Su desafío será armar un infinito rompecabezas de miles y miles de datos de información genética, fisiológica y ambiental, lo cual sin dudas mantendrán a Pandora muy ocupada. Cada vez que Pandora arme una pequeña parte del rompecabezas tendrá algún impacto sobre nosotros, aunque difícilmente podrá abrir la caja por completo. Solo esperemos que al menos le dé la posibilidad que a través de esta caja salga la esperanza y no los males de la humanidad.


Referencias

[1] http://www.ornl.gov/sci/techresources/Human_Genome/faq/snps.shtml
[2] Collins, F. S, M. Morgan & A. Patrinos. 2003. The Human Genome Project: Lessons from Large-Scale Biology. Science 300, 286.
[3] Zhu, C., M. Gore, E. S. Buckler, and J. Yu. 2008. Status and prospect of association mapping in plants. The plant genome 1: 5-20
[4] Hardy, J. & A. Singleton. 2009. Genomewide Association Studies and Human Diseases. The new England Journal of Medicine. 360, 14 1759-1768.
[5] http://hapmap.ncbi.nlm.nih.gov
[6] http://www.1000genomes.org/page.php?page=about
[7] Hirschhorn, J.N 2009. Genomewide association studies-Illuminating biologic pathways. New England Journal of Medicine. 360;17:1699-1701.
[8] Shuster, C. S. 2008. Next-generation sequencing transforms today’s biology. Nature Methods 5:16-18.
[9] Mardis, E. R. The impact of next-generation sequencing technologies on genetics. Trends in Genetics 24 N0.3: 133-141.
[10] Lerner, H. R. L. & R. C. Fleischer. 2010. Prospect for the use of Next-Generation Sequencing Methods in Ornithology. The Auk 127(1): 4-15.
[11] Margulies, M., M. Egholm, W. E. Altman, S. Attiya, J. S. Barder, L. A. Bemben, J. Berka, M. S. Braverman, Y. Chen, Z. Chen, S. B. Dewell, L. Du, J. M. Fierro, X. V. Gomes, B. C. Godwin, W. He, S. Helsegen, C. H. Ho, G. P. Irizyk, S. C. Jando, M. L. I. Alenquer, T. P. Jarvie, K. B. Jirage, J. Kim, J. R. Knight, j. r. Lanza, J. H. Leamon, S. M. Lefkovitz, M. Lei, J. Li, K. L. Lohman, H. Lu, V. B. Makhijani,K. E. McDade, M. P. McKenna, E. W. Myers, E. Nickerson, J. R. Nobile, R. Plant, B. P. Puc, M. T. Ronan, G. T. Roth, G. J. Sarkis, J. F. Simons, J. W. Simpson, M. Srinivasan, K. R. Tartaro, A. Tomasz, K. A. Vogt, G. A. Volkmer, S. H. Wang, Y. Wang, M. P Weiner, P. Yu. R. F. Begley & J. M. Rothberg. 2005. Genome sequencing in microfabricated high-density picolitre reactors. Nature 437:376-380.
[12] http://www.youtube.com/watch?v=bFNjxKHP8Jcm
[13] http://www.youtube.com/watch?v=kYAGFrbGl6E&NR=1
[14] http://www.youtube.com/watch?v=HtuUFUnYB9Y&feature=related[15] Wheeler, D. A., M. Srivinivasan, M. Egholm, Y. Shen, L. Chen, A. McGuire, W. He, Y. Chen, V. Makhijani, G. T. Roth, X. Gomes, K, Tartaro, F. Niazi, C. L. Turcotte, G. P. Irzyk, J. R. Lupski, C. Chinault, X. Song, Y. Liu, Y. Yuan, L. Nazareth, X. Qin, D. M. Muzny, M. Margulies, G. M. Weinstock, R. A. Gibbs & H. M. Rothberg. 2008. The Complete Genome of a Individual by Massively Parallel DNA sequencing. Nature 452: 872-877.
[16] http://www.1000genomes.org/page.php?page=about
[17] http://www.1001genomes.org/
[18] Varsheney, R. K., S. N. Nayak, G. D. May & S. A. Jackson. Next-generation sequencing technologies and their implications fro crop genetics and breeding. Trends in Biotechnology 27, 9 522-530.