Subscribe RSS



La bioinformática y la biodiversidad

Por: Juan Diego Palacio-Mejía

Introducción

Uno de los atributos más universales de los organismos vivos es la diversidad de formas (diversidad fenotípica). Alcanzar a comprender los orígenes, la distribución y la generación de diversidad ha sido un interés permanente del hombre. Es así que casi cada cultura a través de sus creencias o expresiones de fe, ha desarrollado una explicación para entenderla. Por otro lado, en el campo de la ciencia, un camino de mas de 2400 años ha sido recorrido para comprender este fenómeno. Desde Platón y Aristoteles en la antigua Grecia, pasando por el renacimiento, cuando se presentó el intento más acertado hasta ahora de organización los seres vivos propuesto por Linneo. Posteriormente con la revolucionaria teoría de la evolución vía selección natural propuesta por Darwin y Wallace, complementada con la publicación de las leyes de la herencia de Mendel, permitieron durante el siglo XX, que todo este cúmulo de conocimiento fuera aprovechado por destacados pensadores (incluidos entre otros a Wright, Fisher y Haldane), para sentar las bases matemáticas del análisis del fenómeno de la diversidad. Estas bases junto que con el advenimiento de técnicas basadas en ADN e informática, han hecho posible que hoy dispongamos de un marco conceptual y una serie de herramientas analíticas que nos permiten comprender de una manera más detallada ese gran misterio que significa entender la diversidad de las formas de vida.

En la actualidad dos factores hacen que el estudio de la diversidad de la vida sea uno de los campos más excitantes de investigación. Primero, la sociedad ha desarrollado una gran sensibilidad hacia la diversidad biológica. Ya sea por su grado de amenaza, por la dependencia económica que tenemos de ella o simplemente por curiosidad, el estudio de la diversidad ha sido un tema que incluso ha trascendido los escenarios académicos y se ha traslado al dominio público. Solo por poner un ejemplo, el prefijo griego que significa vida: bio, ha sido tan ampliamente acogido por la sociedad, que ya se le antepone a una gran variedad de términos de uso común, tales como biodiversidad, que integra en una palabra el concepto de diversidad biológica, o las temibles biopiratería y bioterrorismo; o las útiles herramientas de biotecnología, y las promesas de los biocombustibles. Así podríamos seguir mencionado la larga lista de palabras a las cuales el prefijo Bio les ha sido asignado.

Segundo, el desarrollo de la ciencia ha permitido no solo una aproximación al estudio de la diversidad en términos de forma, sino que ha permitido ir a niveles de más detalle con el estudio de los ácidos nucleicos (ADN y ARN), un nivel, donde casi todas, por no decir todas las formas de vida son diferentes. Este nivel de detalle alcanzado con el análisis de los ácidos nucleicos ha permitido la generación de un gran cúmulo de información que ha desafiado las tradicionales técnicas usadas para la manipulación de datos. Afortunadamente el avance de las técnicas de estudio de ácidos nucleicos también se ha visto favorecida con el avance en las herramientas de informática para la manipulación de información asociada con la vida, a lo que siguiendo la tendencia se ha denominado bioinformática, definida en el primer artículo de nuestra temporada [1].

Durante esta temporada de nuestro blog, enfocada en la bioinformática, abordaremos la forma como en este nuevo milenio, se sigue avanzando en la comprensión de la diversidad, específicamente, mediante el desarrollo de métodos masivos de obtención de datos, gracias al avance tecnológico en biología molecular, y a la posibilidad de su manejo y aplicabilidad por medio de herramientas bioinformáticas.

El estudio de la biodiversidad, así como su concepto, está dividido en tres aproximaciones: la diversidad genética, de especies y de ecosistemas. En nuestra temporada de bioinformática serán abordadas las dos primeras aproximaciones. En el presente blog será abordada la diversidad genética dentro de especies (entre poblaciones) y su vinculación con la bioinformática y en una futura entrega será considerada la incorporación de las técnicas de bioinformática en el estudio de las relaciones entre las especies.

De la morfología a los genomas

La manera en que el hombre ha ido construyendo una interpretación de la naturaleza a través de la historia de la ciencia ha cambiado con el tiempo. Tradicionalmente nuestra aproximación al conocimiento de la naturaleza había sido exclusivamente sensorial. Fue a través de los sentidos que por siglos construimos nuestro conocimiento sobre la diversidad. Algunas veces construimos instrumentos que nos ayudaron a agudizar los sentidos, como el microscopio o el telescopio, pero seguían siendo los sentidos la primera fuente de información de cómo percibimos la realidad. Lo que estuviera fuera del alcance de nuestros sentidos prácticamente no existía. Casi que podríamos decir que por milenios construimos una biología basada en los sentidos. En ese contexto, las diferencias entre las formas de vida estaban asociadas a características que podíamos apreciar. Esa visión sensorial y una gran capacidad de observación y análisis, permitió por ejemplo, que Mendel a partir de tan solo siete características morfológicas en arvejas, pudiera establecer las Leyes de la Herencia. Mendel utilizó rigurosos diseños experimentales, los cuales con una matemática sencilla y un gran poder de deducción le permitieron proponer los mecanismos de la herencia, utilizando para ello lo que tal vez es una de las formas más primitivas de bioinformática: su libro de experimentos, donde colectaba, organizaba y analizaba sus datos (Figura 1).


Figura 1. Hoja de análisis de datos realizados por Gregor Mendel (http://www.dnalc.org)

Como complemento al poder de los sentidos, una nueva ventana para el estudio de la biodiversidad fue abierta con el descubrimiento del ADN y el posterior desarrollo de las técnicas moleculares. Ya no estábamos solo limitados a las diferencias morfológicas entre los individuos y sus restricciones como lo son el limitado número de caracteres, o su cambio bien sea a través de la vida de los individuos o a través de los ambientes en los que se desarrollan. Ahora también teníamos acceso a las diferencias en lascomposición de la secuencia de sus ácidos nucleicos a través del uso de los marcadores basados en secuencias de ADN. Ya no sólo disponíamos de información morfológica, como los siete caracteres de Mendel, sino que también disponíamos de una gran cantidad de datos moleculares. Sin embargo, esta ganancia en el nivel de generación y complejidad de datos también trajo consigo la necesidad de métodos de análisis mucho más robustos. De esta necesidad surgió la vinculación de diferentes áreas del conocimiento como las ciencias de la computación y las matemáticas al manejo de los datos biológicos.

Para ilustrar como se ha ido ganando complejidad en el manejo de los datos, podemos echar un vistazo al siguiente ejemplo, en el que se usan marcadores moleculares, que comparan regiones del ADN entre individuos y/o especies, en el estudio de poblaciones humanas. Este análisis fue desarrollado estudiando 377 sitios en el genoma (Loci de microsatélites, secuencias simples de nucleótidos que se repiten en el ADN) de 1056 individuos, encontrando 4199 formas (alelos) diferentes entre ellos [2]. Estos 4199 caracteres superan ampliamente los 7 caracteres morfológicos usados por Mendel. Estos resultados de datos moleculares pueden ser entonces agrupados en una matriz de 1056 líneas (individuos) por 4199 columnas (caracteres encontrados). Es en este tipo de casos donde las herramientas bioinformáticas comienzan a tomar relevancia para la gestión y el análisis de datos. Una aproximación sencilla a una herramienta de bioinformática y que casi todos hemos usado, al menos para la captura de datos, es por ejemplo, la popular hoja de cálculo de Microsoft Excel, que funciona muy bien en nuestros computadores personales y que en su versión de 2010 nos ofrece la posibilidad de hacer matrices de 1048576 filas por 16348 columnas, suficientes, por ejemplo, para albergar una matriz como la generada en nuestro ejemplo de genética de poblaciones en humanos utilizando marcadores microsatélites.

Pero, ¿qué pasa si en lugar de estudiar algunos sitios en el genoma, pasamos a considerar las diferencias entre individuos en cada una de las bases que constituye un genoma? En este caso, lo más seguro es que ni Microsoft Excel ni nuestros computadores personales nos puedan ayudar. Por ejemplo, el genoma humano, que fue publicado por primera vez en el 2001 [3, 4] tiene alrededor de 3200 millones de bases, cifra que supera ampliamente la capacidad de las actuales hojas de cálculo tan solo para su registro.

La era de los genomas comenzó en 1976, cuando un profesor de la Universidad de Ghent, en Bélgica, secuenció por primera vez un genoma viral con tan solo 3569 pares de bases [5], desde entonces y según la base de datos Genomic online database (http://www.genomesonline.org) hasta marzo del 2013 se habían registrado 4325 genomas completos y 17638 genomas incompletos. Y cómo si esto fuera poco, para el caso de organismos modelos como Arabidopsis thaliana, se dispone de 1001 genomas de individuos dentro de la especie (http://signal.salk.edu/atg1001/index.php). Con esta gran avalancha de datos, incluso su almacenamiento genera desafíos, ahora, ¿Pueden imaginar los retos que puede implicar su análisis?

Hasta hace muy poco, la posibilidad de secuenciar genomas completos era exclusiva de algunos grupos de investigación que tenían acceso a grandes recursos económicos y técnicos. Sin embargo, en la actualidad la nueva generación de métodos de secuenciación de alto rendimiento, tales como las plataformas 454 (Life Sciences/Technoligies), SOLiD (Applied Biosystems) e Illumina (Solexa Illumina), han disminuido sustancialmente los costos y el tiempo de secuenciación [6], permitiendo la expansión de su uso no solo para la secuenciación de genomas de especies, sino de individuos por especie [7, 8]. Esto ha hecho que se pase de la genética de poblaciones, en donde a partir de datos morfológicos o genéticos, se podía describir la variación neutral y distribución de sus frecuencias genéticas para explicar los fenómenos evolutivos, a estrategias donde se cuenta con la posibilidad de comparar la totalidad del genoma de individuos por población y entre poblaciones, todo esto a través de un nuevo campo conocido como la genómica de poblaciones.

Tradicionalmente los estudios de genética de poblaciones incluyen el análisis de regiones del ADN que son consideradas “neutrales” a la luz de la evolución, pero con el desarrollo de la genómica de poblaciones y la comparación entre genomas, estas regiones no codificantes se ven complementadas con las regiones que codifican para proteínas, aportando una visión mucho más integral sobre la evolución al incluir el estudio de la variación genética adaptativa.

El objetivo de comparar los genomas es obtener información de cuáles son los sitios que son diferentes entre ellos. Estos sitios son comúnmente llamados polimorfismos en un solo nucleótido (SNP del inglés single nucleotide polymorphism). Uno de los trabajos pioneros en genómica de poblaciones fue el desarrollado estudiando la adaptación paralela en cinco poblaciones del pez espinoso (Threespine sticklebackGasterosteus aculeatus) en Norteamérica. Para la obtención de los SNP se utilizó la técnica de secuencia Illumina y utilizando librerías de sitios de restricción asociados a marcadores de ADN (RADtags, del inglés restriction site associated)[9]. Con esta técnica fue posible identificar 45000 SNP en cada uno de los 100 individuos pertenecientes a las cinco poblaciones analizadas [10]. Posteriormente han sido publicados trabajos en otras especies modelo como Arabidopsis thaliana, analizando 1003 accesiones procedentes de 447 localidades con 214051 SNP [11]. Estas impresionantes cifras representan un verdadero desafío a la hora de manipular y analizar los datos.

Integración con otras disciplinas

Como si no fuera suficiente con el nivel de complejidad en el manejo de la gran cantidad de datos generada con las nuevas técnicas de secuenciación, en la actualidad los estudios de biodiversidad se han hecho más complejos, haciendo necesaria la inclusión de nuevas áreas del conocimiento como la geografía, la climatología y la ecología, que a su vez aportan no solo una vasta cantidad de información adicional, sino que también establecen la necesidad de nuevas herramienta de análisis. Esta integración han traído como consecuencia el desarrollo de nuevas áreas del conocimiento como la genómica del paisaje (Landscape genomics), que es el estudio de la variación genética a una escala geográfica [12].

Así como se dispone de bases de datos para la información genética [13], de la misma manera se disponen de bases de datos que contienen información de especímenes biológicos, tales como la GBIF (Global biodiversity information facilityhttp://www.gbif.org) que reúne información contenida en colecciones biológicas alrededor del mundo. Para el mes de abril de 2013 contenía información de casi 400 millones de registros, de más de 10000 bases de datos. También, se dispone de bases de datos climáticos como la de WorlClim (http://www.worldclim.org), que permite de manera gratuita disponer de información climática a nivel global para su utilización en sistemas de información geográfica.

Para complementar el grado dificultad que implica la integración de información proveniente de diferentes disciplinas, el modelamiento y las simulaciones son otras de las herramientas utilizadas en el conocimiento de la biodiversidad. Para ilustrar este nuevo nivel de complejidad de análisis e integración de información, se puede tomar en consideración la actual preocupación sobre el impacto del calentamiento global sobre la biodiversidad. Abordar esta problemática no solo requiere que los investigadores integren grandes volúmenes de información, si no que a partir de ellos, creen diferentes escenarios que permitan predecir el impacto de cambio climático en la distribución de los seres vivos. En la actualidad existen modelos de cambio climático que han creado varios escenarios futuros (optimistas y pesimistas) que permiten predecir qué puede pasar con la futura distribución de las especies o poblaciones de los organismos analizados [14]. Información sobre estos modelos puede ser encontrada en la página web del Grupo Intergubernamental de Expertos sobre el Cambio Climático (IPCC), de las Naciones Unidas (http://www.ipcc.ch).

¿Qué hacer?

Después de este recorrido por los recientes y masivas técnicas de obtención de datos, la integración entre diferentes áreas del conocimiento y sus bases de datos, así como  la posibilidad de hacer modelaciones, la pregunta que surge es cómo hacer para integrar todos estos recursos y sacarles el máximo provecho? La respuesta viene de la vinculación entre las ciencias de la información, computacionales, matemáticas y biológicas en lo que es llamado biología computacional o comúnmente llamada bioinformática. La aplicación de la bioinformática al estudio de la biodiversidad usualmente requiere el desarrollo de habilidades de programación en lenguajes tales como Perl, Phyton, e incluso el popular R que proporciona una interfase adecuada para organizar, manipular y analizar datos. Como complemento a las herramientas de programación, también en necesario el acceso a super-computadores, como Stampede (Figura 2) en los que se alojan los datos y se realizan los análisis, utilizando para ello accesos remotos (como SSH security shell) desde computadores convencionales.



Figura 2. Stampede es la séptima super-computadora más grande del mundo (Marzo 2013), y la más grande dedicada exclusivamente al sector académico en los Estados Unidos. Su poder de procesamiento equivale al de 100000 computadoras personales (http://www.tacc.utexas.edu/resources/hpc/stampede).

Aparte de los beneficios de procesar grandes volúmenes de información, las técnicas de bioinformática hacen posible que el investigador tenga un mayor control sobre sus datos y las posibilidades de análisis. Aunque están comenzando a ser liberados programas para el análisis masivos de datos, como mlRho que estima tasas de mutación y recombinación [15], aún son muy pocos los programas disponibles y los existentes tiene propósitos muy específicos. En este contexto, los lenguajes de programación permiten mucha flexibilidad a la hora de manipular los datos, los tipos de análisis, así como las salidas de los resultados. Con estos recursos ya el investigador no es tan dependiente del desarrollo de software, su actualización, la adquisición de costosas licencias o la integración con sistemas operativos, brindando múltiples opciones para la generación de conocimiento.

Después de ver la evolución de las técnicas de almacenamiento y análisis de datos y su aplicación a la comprensión del fenómeno más universal de la vida: la diversidad, pasando por el libro de notas de Mendel, las tablas de Excel hasta el uso de supercomputadores, no cabe la menor duda que todos estos avances en obtención, almacenamiento, intercambio y análisis de datos no hubiese sido posible sin los avances en las técnicas de bioinformática para la generación de conocimiento biológico.

Bibliografía

1. Arango, A., Introducción a la bioinformática, in Biogenic, Biogenic, Editor 2013, Biogenic.
2. Rosenberg, N.A., J.K. Pritchard, J.L. Weber, H.M. Cann, K.K. Kidd, L.A. Zhivotovsky, and M.W. Feldman, Genetic structure of human populations. Science, 2002. 298(5602): p. 2381-2385.
3. Venter, J.C., M.D. Adams, E.W. Myers, P.W. Li, R.J. Mural, G.G. Sutton, H.O. Smith, M. Yandell, C.A. Evans, and R.A. Holt, The sequence of the human genome. Science Signaling, 2001. 291(5507): p. 1304.
4. Lander, E.S., L.M. Linton, B. Birren, C. Nusbaum, M.C. Zody, J. Baldwin, K. Devon, K. Dewar, M. Doyle, and W. FitzHugh, Initial sequencing and analysis of the human genome. Nature, 2001. 409(6822): p. 860-921.
5. Fiers, W., R. Contreras, F. Duerinck, G. Haegeman, D. Iserentant, J. Merregaert, W. Min Jou, F. Molemans, A. Raeymaekers, and A. Van den Berghe, Complete nucleotide sequence of bacteriophage MS2 RNA: primary and secondary structure of the replicase gene. Nature, 1976. 260(5551): p. 500-507.
6. Davey, J.W., P.A. Hohenlohe, P.D. Etter, J.Q. Boone, J.M. Catchen, and M.L. Blaxter, Genome-wide genetic marker discovery and genotyping using next-generation sequencing. Nature Reviews Genetics, 2011. 12(7): p. 499-510.
7. Mardis, E.R., Next-generation DNA sequencing methods. Annual Review of Genomics and Human Genetics, 2008. 9: p. 387-402.
8. Mardis, E.R., The impact of next-generation sequencing technology on genetics. Trends in Genetics, 2008. 24(3): p. 133-141.
9. Davey, J.W. and M.L. Blaxter, RADSeq: next-generation population genetics. Briefings in Functional Genomics, 2011. 9(5-6): p. 416-423.
10. Hohenlohe, P.A., S. Bassham, P.D. Etter, N. Stiffler, E.A. Johnson, and W.A. Cresko, Population Genomics of Parallel Adaptation in Threespine Stickleback using Sequenced RAD Tags. PLoS Genetics, 2010. 6(2): p. e1000862.
11. Lasky, J.R., D.L. Des Marais, J.K. McKay, J.H. Richards, T.E. Juenger, and T.H. Keitt, Characterizing genomic variation of Arabidopsis thaliana: the roles of geography and climate. Molecular Ecology, 2012.
12. Sork, V.L., S.N. Aitken, R.J. Dyer, A.J. Eckert, P. Legendre, and D.B. Neale, Putting the landscape into the genomics of trees: approaches for understanding local adaptation and population responses to changing climate. Tree Genetics & Genomes, 2013.
13. López-Galvis, L., Bases de datos: La información biológica a un clic de distancia, in Biogenic2013: http://biogenic-colombia.blogspot.com.
14. Temunović, M., N. Frascaria-Lacoste, J. Franjić, Z. Satovic, and J.F. Fernández-Majarrés, Identifying refugia from climate change using coupled ecological and genetic data in a transitional Mediterranean-temperate tree species. Molecular Ecology, 2013: p. n/a-n/a.
15. Haubold, B., P. Pfaffelhuber, and M. Lynch, mlRho - a program for estimating the population mutation and recombination rates from shotgun-sequenced diploid genomes. Molecular Ecology, 2010. 19: p. 277-284.

Category: | 0 Comments