La bioinformática y el transcriptoma:
Entendiendo el eslabón entre nuestros genes y nuestras respuestas frente el ambiente
Por Adriana Almeida
Nuestros cuerpos perciben constantemente el ambiente que nos rodea a pesar que muchas veces no distinguimos minúsculos cambios de nuestro alrededor con los sentidos. Sin embargo, nuestras células, siempre alerta, captan permanentemente dichos cambios, generando respuestas fisiológicas que nos ayudan a adaptarnos y a mantener nuestras funciones vitales. La percepción del ambiente por nuestras células genera señales que son “leídas e interpretadas” en el núcleo de éstas, mediante la activación o la represión de zonas particulares en nuestro ADN que inducen cambios en la transcripción de genes a ARN y posteriormente en la traducción del ARN mensajero a proteínas.
En las últimas dos décadas, se ha invertido un gran esfuerzo en la investigación para entender y elucidar la manera en la que la transcripción de genes es regulada. Estos estudios se han realizado principalmente por medio de la generación e implementación de nuevas técnicas moleculares para estudios a gran escala del genoma, en combinación con aproximaciones in silico (simulaciones hechas por computador). El resultado de estos estudios genera una gran cantidad de información que requiere del uso de computadores con gran capacidad de almacenamiento y de procesamiento, e igualmente necesita del desarrollo de diversas herramientas bioinformáticas, para la generación de bases de datos, su almacenamiento y su análisis. En este artículo busco introducirlos al mundo de la transcriptómica y de cómo la bioinformática se ha convertido en una herramienta clave en el desarrollo de esta rama de la biología molecular.
La trascripción génica
La transcripción de un gen ocurre cuando una de las dos hebras que constituyen el ADN es utilizada como molde por enzimas especializadas (por ejemplo las ARN polimerasas) para producir una copia complementaria de los nucleótidos (las letras que componen el código genético) que la conforman. Esta molécula es conocida como ARN (1).
Durante la transcripción se producen diferentes tipos de ARN, como son el ARN mensajero que es traducido a proteínas, el ARN ribosomal que genera los componentes del ribosoma, los ARN de transferencia que llevan consigo los amino ácidos al ARN ribosomal durante la traducción del ARN mensajero a proteína, y los ARN no codificantes que no son traducidos a proteína y que son pieza clave en la regulación de los procesos de transcripción y de traducción génica, como los micro ARNs, ARNs pequeños de interferencia, entre otros (2).
En organismos multicelulares como nosotros, la información contenida en el ADN es la misma en todas las células del cuerpo, sin embargo, los genes que son transcritos a ARN varían dependiendo del tipo de tejido, del estado de desarrollo del organismo y del tipo de ambiente en el que este se encuentra (3). El compendio total de las moléculas de ARN, que son producidas por un organismo en un momento determinado, es conocido como transcriptoma (4).
Como mencioné en la introducción, el transcriptoma es regulado por medio de la activación o la represión de genes. Los elementos de regulación se encuentran organizados en unidades y han sido categorizados como elementos proximales y distales de regulación, conocidos como módulos reguladores cis (CRMs, sigla en Inglés para cis-regulatory modules) (5). Dentro de estas unidades reguladoras, se han identificado secuencias del ADN corriente arriba (anteriores al inicio del gen) de los genes que interactúan con proteínas específicas denominadas factores de transcripción (TFBS/TFs, sigla en Inglés para transcription factor binding sites/transcription factor proteins) (6). Otro tipo de elementos reguladores que influencian la activación o represión de un gen son los limites cromáticos de activación/inactivación del ADN, definidas por secuencias CTCF (7). Igualmente se han identificado modificaciones epigenéticas que alteran la manera en la que el ADN es enrollado en las histonas (cromatina), generando variaciones en la accesibilidad de las enzimas y de las TFs al ADN durante la transcripción (8).
La bioinformática y el transcriptoma
Por muchos años la identificación de cambios en la transcripción génica sólo se pudo lograr en pequeña escala, gen por gen. De igual manera, la detección de elementos reguladores en el ADN solo se pudo generar a partir de ensayos in silico y con resultados muy limitados (9). Sin embargo, gracias al advenimiento de nuevas técnicas moleculares para el estudio del genoma a gran escala, inicialmente con los microarreglos y luego con las nuevas técnicas de secuenciación de segunda generación, se han podido identificar sistemáticamente los cambios a nivel del transcriptoma que ocurren frente a diferentes estímulos ambientales, en el desarrollo de enfermedades y su diagnóstico, en el establecimiento de procesos celulares particulares (10), o en respuesta a estrés en muchos organismos, al igual que la identificación de TFBSs y otras unidades reguladoras en organismos eucariotas (11).
Estas nuevas tecnologías producen una gran cantidad de información, generando la necesidad en la comunidad científica de cómo desarrollar un apropiado diseño experimental y de mejorar las capacidades computacionales actuales en muchos laboratorios para el almacenamiento, análisis estadístico e interpretación de los datos obtenidos (12). Es aquí, donde la bioinformática juega un papel fundamental, como una disciplina integrativa que se ha convertido en un componente intrínseco en esta nueva fase de los descubrimientos moleculares a gran escala, pues provee herramientas para el manejo, análisis y manipulación de grandes cantidades de datos. En estudios de transcriptómica, la bioinformática tiene tres componentes principales: Manejo y almacenamiento de datos, el desarrollo de algoritmos y estadísticos que se utilizan para establecer las posibles relaciones entre los componentes de la base de datos, y finalmente el desarrollo e implementación de nuevas herramientas computacionales, las cuales son requeridas para el análisis y la interpretación de los datos obtenidos (13).
A continuación, explicaré de manera general como se desarrolla el manejo y el análisis bioinformático de datos obtenidos mediante las nuevas tecnologías de secuenciación a gran escala del ARN. Mencionaré, sin entrar en detalle, las nuevas técnicas en secuenciación, pues ya hemos abordado este tema en un articulo anterior en nuestro blog (14).
Secuenciación de ARN a gran escala
Las tres plataformas mas populares para la secuenciación a gran escala del transcriptoma son SOLiD (Applied Biosystems), 454-Sequencing (454 Roche Life Sciences) y Solexa (Illumina). Solexa y SOLiD generan un cubrimiento en profundidad mayor que 454 (profundidad en secuenciación es el número de veces que un nucleótido dentro de una secuencia particular es leído durante la secuenciación), pero a expensas del tamaño de los fragmentos que pueden leer (150 , 50 y 330 bp, respectivamente) (15). Adicionalmente, dos nuevas plataformas desarrolladas a partir de nuevas tecnologías fueron liberadas en el 2011, la maquina genómica personal Ion Torrent o PGM (acrónimo en inglés para Ion Torrent Personal Genome Machine) y el secuenciador de Pacific Biosciences (PacBio) RS. PGM utiliza tecnología de semiconductores y detecta una señal química que se transforma en una señal digital cuando los nucleótidos son incorporados durante la síntesis de nuevas cadenas de ADN durante el proceso de secuenciación. Mientras que PacBio utiliza secuenciación en tiempo real de moléculas individuales o SMRT (acrónimo en inglés para single molecule real time sequencing). Igualmente, Illumina liberó un nuevo equipo de secuenciación llamado MiSeq, en el que se ha reducido el tiempo durante el proceso de secuenciación a 90 minutos (16). Cada plataforma existente tiene grandes beneficios e igualmente tiene limitaciones significativas, dependiendo de las características particulares de los genomas y trascriptomas que se deseen analizar (como el contenido de GC y de regiones AT), el tipo de análisis que se quiera realizar (secuenciación de novo, búsqueda de SNPs (acrónimo en inglés para Single nucleotide polymorfisms, etc), el presupuesto con el que se cuenta para la investigación, entre otros.
Todas las plataformas de secuenciación a gran escala producen al final decenas de millones de lecturas de secuencias pequeñas. Los resultados que arrojan los secuenciadores son lecturas de secuencias de un tamaño determinado y un valor de calidad asignado a cada nucleótido. Estos resultados son entonces sujetos a un control de calidad para remover secuencias con un valor de calidad bajo o para remover los extremo de secuencias que pierden calidad (Paso 1 en Figura 1). Esta limpieza de datos es importante, pues permite acelerar los análisis de datos posteriores (15).
A continuación, las secuencias con valor de calidad alto son ensambladas en contigs (es la secuencia resultante de muchas lecturas de secuencias que se sobrelapan entre sí). Este es el paso mas importante y es altamente sensible a errores durante el proceso de secuenciación, a la presencia de polimorfismos y de secuencias repetitivas, a variaciones en el empalme entre lecturas de secuencias que se sobrelapan, etc, lo que hacen de este análisis un proceso computacional complejo e intensivo. El ensamblaje se puede llevar a cabo de dos maneras, la primera es ensamblaje de novo y la segunda es ensamblaje por mapeo a un genoma o un transcriptoma de referencia utilizando distintos paquetes bioinformáticos. Entre los programas que han sido desarrollados para el ensamblaje de contigs a un genoma o transcriptoma de referencia se encuentran: Eland, SOAP, MAQ, RMAP, SSAHA2, SHRiMP, Stampy, TopHat, RNA-MATE, Bowtie y baySeq. Estos programas utilizan diferentes algoritmos para el alineamiento de lecturas de secuencia (Paso 2 en Figura 1). Una vez ensamblado el transcriptoma, las lecturas de secuencia son normalizadas para cada gen (Paso 3 en Figura 1), con el fin de identificar la abundancia real de este gen en la muestra (15). Este paso en el análisis es también complejo, debido a que las familias génicas están compuestas generalmente por genes con gran similitud entre si y cada gen puede tener a su vez múltiples isoformas. Desafortunadamente, muy pocos programas bioinformáticos están disponibles actualmente para desarrollar esta normalización y cuantificación. Entre los paquetes bioinformáticos existentes, se encuentran ALEXA-seq, MMSEQ y Cufflinks, los cuales estiman la abundancia de isoformas basados en diferentes algoritmos (17).
Luego se realiza un análisis estadístico para identificar aquellos genes con expresión diferencial, entre los diferentes tratamientos a comparar, a partir del diseño experimental. Se ha observado que la manera en la que los datos son normalizados y la cuantificación de la abundancia afectan substancialmente los resultados de la expresión de los genes, especialmente cuando se trata de genes que son poco abundantes en el transcriptoma, y la diferencia entre los distintos análisis estadísticos radica en su habilidad para identificar las diferencias de expresión en estos genes (18). Así que la selección de los métodos estadísticos para la normalización y el análisis de expresión diferencial genera un gran impacto en la precisión de los resultados (Paso 4 en Figura 1). Una vez han sido identificados los genes expresados diferencialmente, se pueden hacer análisis de categorías funcionales, de rutas metabólicas y de redes génicas para determinar la relevancia biológica de los genes identificados (15).
Conclusiones
Gracias al análisis de expresión génica de diversos organismos, hasta el momento se han publicado mas de 750000 datos de expresión génica en el Centro Nacional de Información Biotecnológica (NCBI), los cuales se encuentran almacenados en la base de datos pública conocida como Gene Expression Omnibus (GEO) (10).
Con el desarrollo y la implementación de estas nuevas tecnologías de secuenciación global del transcriptoma, podremos mejorar nuestro entendimiento sobre la dinámica de la expresión de genes durante el desarrollo de los organismos, en respuesta a condiciones especificas del ambiente, durante el desarrollo, el diagnóstico, la prevención y el tratamiento de enfermedades, etc.
Igualmente, la integración de los datos de expresión génica con otros tipos de datos genómicos, proteómicos, metabolómicos, epigenéticos, entre otros, nos permitirán entender como ocurren muchos procesos biológicos y como se integran dentro del contexto celular.
Revisión de literatura
1. http://www.biology-online.org/dictionary/Transcription
2. Lu C, Singh Tej S, Luo S, Haudenschild CD, Meyers BC, and Green PJ. 2005. Elucidation of the small RNA component of the transcriptome. Science 309, 1567.
3. Buchanan BB, Gruissem W, and Russell LJ. 2000. Biochemistry and Molecular Biology of Plants. American Society of Plant Physiologists, Rockville, Maryland. Chapter 7. Pages 337-339.
4. http://www.medterms.com/script/main/art.asp?articlekey=23517
5. Halfon MS. 2006. (Re)modeling the transcripcional enhancer. Nature Genetics (38) 1102-1103.
6. Juven-Gershon T, Hsu JY, Theisen JW, and Kadonaga JT. 2008. The RNA polymerase II core promoter - the gateway to transcription. Current Opinion in Cell Biology (20) 253-259.
7. Tolstorukov MY, Volfovsky N, Stephens RM and Park PJ. 2011. Impact of chromatin structure on sequence variability in the human genome. Nature Structural and Molecular Biology (18) 510-515.
8. Ernest J and Kellis M. 2010. Discovery and characterization of chromatin states for systematic annotation of the human genome. Nature Biotechnology (28) 817-825.
9. Hannenhalli S. 2008. Eukaryotic transcription factor binding sites-modeling and integrative search methods. Bioinformatics (24) 1325-1331.
10. Lovén J, Orlando DA, Sigova AA, Lin CY, Rahl PB, Burge CB, Levens DL, Ihn Lee T and Young RA. 2012. Revisiting global gene expression analysis. Cell (151) 476-482.
11. Altobelli G. 2012. Bioinformatics applied to gene transcription regulation. Journal of Molecular Endocrinology (49) R51-R59.
12. Auer PL, Srivastava S, and Doerge RW. 2011. Differential expresión-the next generation and beyond. Briefings in Functional Genomics (11) 1: 57-62.
13. Raut S, Sather S, and Raut A. 2010. Bioinformatics: Trends in gene expression analysis. 2010 International conference on bioinformatics and biomedical technology. DOI: 10.1109/ICBBT.2010.5479003.
14. Echeverry Solarte M. 2010. El desafío de Pandora.
http://www.biogenic-colombia.blogspot.ca/2010_09_01_archive.html
15. Jain M. 2011. Next-generation sequencing Technologies for gene expresión profiling in plants. Briefings in Functional Genomics (11) 1: 63-70.
16. Quail MA, Smith M, Coupland P, Otto TD, Harris SR, Connor TR, Bertoni A, Swerdlow HP and Gu Y. 2012. A tale of three next generation sequencing platforms: comparison of Ion Torrent, Pacific Biosciences and Illumina MiSeq sequencers. BMC Genomics (13) 341.
17. Griffith M, Griffith OL, Mwenifumbo J, et al. 2010. Alternative expresión análisis by RNA sequencing. Nature Methods (7) 843-847.
18. Bullard JH, Purdom E, Hansen KD, et al. 2010. Evaluation of statistical methods for normalization and differential expresión in mRNA-seq experiments. BCM Bioinformatics (11) 94.