Anotación de genomas, descifrando los libros de la vida
Por: Leonardo Galindo
“For thousands of years, rabbis have laboured over the
text of the Torah, seeking to make this cryptic, uneven and internally
contradictory text into a coherent system of law, and storing this commentary
into an annotated version of the text, known as the Talmud. Over time, the
amount of annotation in the Talmud has greatly exceeded the original text —
each line of the Torah is now surrounded by layers of commentary in an
onion-skin fashion”
“Por miles de años, los rabinos han trabajado en el
libro del Torah, tratando de transformar este texto críptico, desigual e
internamente contradictorio, en un sistema de leyes coherentes, consignando
estos comentarios en una versión anotada del texto conocida como el Talmud. A
través del tiempo, la cantidad de anotaciones del Talmud ha excedido
ampliamente el texto original – cada línea del Torah está ahora rodeada por
capas de comentarios al estilo de la piel de una cebolla”
[1]
Anotar un genoma es muy similar a tratar de descifrar el
Torah (libros de la biblia judía). Es necesario tener un equipo de criptografía
que entienda el lenguaje del ADN (biólogos moleculares y bioinformáticos), y que
pueda localizar en espacios específicos del genoma sus diferentes componentes
(genes, secciones repetitivas, ADN no codificante), para luego asignar un
significado a cada una de dichas secciones, que finalmente nos permita
interpretar su significado. El resultado de la anotación de un genoma es una
descripción de la ubicación de sus componentes a los cuales se les ha asignado
una función potencial.
Algo de historia
La historia de la anotación de los genomas ha ido a la
par con el proceso de secuenciación de los genomas. Los primeros genomas
secuenciados fueron los de los virus [2–4], posiblemente porque en los años 70’s y 80’s la
tecnología solo permitía secuenciar regiones pequeñas y existía además un
interés en empezar a descifrar la relación patogénica de los virus con la
especie humana. En los años 90’s la secuencia del primer organismo
independiente o no vírico, Haemophilus
influenzae [5], fue descifrada y a éste le siguieron otros
organismos unicelulares de importancia médica y comercial incluyendo Escherichia
coli [6] y Saccharomyces cerevisiae [7]. Aunque hubo un gran salto en el tamaño de las
secuencias obtenidas pasando de aproximadamente 5000 nucleótidos secuenciados
en el caso del virus bacteriófago φX174 [3] a más de 12 millones de nucleótidos y 6000 genes en
el caso de S. cerevisiae [7], posiblemente el punto de inflexión para empezar a pensar
en anotaciones más detalladas, automatizadas y de alta eficiencia, se dio con
el proyecto de secuenciación del genoma humano. En los años 90’s la asignación
de funciones para los genes de los primeros microorganismos se hizo con ayuda
de herramientas como BLAST (por su acrónimo en inglés: Basic Local Alignment
Search Tool), que permite encontrar regiones de alta similitud entre la
secuencia que se investiga y una base de datos de secuencias caracterizadas.
Sin embargo, pasar de algunos millones de bases en organismos unicelulares a
3000 millones de bases y más de 20000 genes en los humanos, requirió tanto de
grupos de investigación multidisciplinarios trabajando en conjunto alrededor
del mundo, como de la automatización de los procesos. De esta manera la
evolución tecnológica y la consecución de genomas cada vez más grandes,
provocaron que en menos de dos décadas surgiera una necesidad inherente de
buscar herramientas que hicieran más eficiente y exacto el proceso de anotación
de genomas.
Como anotar un genoma
Existen dos niveles de anotación, uno a nivel del gen
y otro a nivel del genoma. Si usted ha trabajado en biología molecular o en
ramas afines es bastante probable que se haya enfrentado con el problema de
anotar un gen o una familia de genes. Su supervisor llego un día a su puesto de
trabajo y le dijo: un colaborador encontró un gen que se expresa altamente en
respuesta al estrés hídrico en el arroz, realmente no sabemos que es pero
tenemos una secuencia parcial (incompleta) y nos gustaría investigar a fondo
que hace. Encontrar el gen completo y detallar su ubicación, asignarle una
posible función y entender su relación con otros genes nos permite estudiar el
gen a fondo y es un punto de partida para estudios que permitan comprobar su función.
El fundamento básico de la anotación de un gen es muy similar a anotar un
genoma: buscar donde está el gen en el genoma, predecir sus límites y
estructura y asignar una posible función. Sin embargo, en muchas ocasiones
cuando se estudia un gen o familia génica existe un contexto y todo un estudio
diseñado alrededor de la consecución de los genes. Consecuentemente se están
estudiando secciones de ADN tan puntuales que el problema de anotación es
mínimo [8]. Es allí donde la anotación de genomas completos
difiere, pues la anotación de un genoma no tiene como objetivo estudiar genes
específicos, y no existen conclusiones biológicas a priori de las funciones de cada gen. La anotación de genes y
genomas es en sí un trabajo puramente bioinformático que sirve para generar
hipótesis que pueden ser comprobadas con trabajo de laboratorio.
Podríamos decir que la anotación de un genoma tiene
dos componentes básicos: uno estructural y otro funcional [8]. Estructuralmente los genes tienen que ser asignados
a regiones específicas del genoma y/o de los cromosomas. Adicionalmente es
necesario encontrar la estructura de cada gen incluyendo sus intrones, exones,
sitios de inicio y de parada de la transcripción y las regiones no traducidas
que se encuentran al principio y al final. Sumado a esto es deseable encontrar
las regiones promotoras que pueden proporcionar información sobre la regulación
de dichos genes. Una vez la estructura y los límites del gen están estipulados,
es entonces posible tomar dicha sección de ADN y compararla con bases de datos
de genes o dominios que permitan asignar posibles funciones. Cuando la
estructura y la función están establecidas para todos los genes de un genoma,
podemos decir que el genoma esta anotado, aunque como veremos más adelante
existen secciones no codificantes, reguladoras y repetitivas que también deben
ser caracterizadas.
Herramientas bioinformáticas disponibles
Entendiendo el fundamento de como anotar un genoma
podemos ahora pasar a describir las herramientas para hacerlo. En los años 90’s
cuando el reto de la anotación genómica estaba en su infancia, los biólogos
computacionales recurrían a las herramientas usadas para anotar genes
individuales. Algunos de los primeros predictores de genes como GRAIL y
GENESCAN fueron implementados y mejorados para hacer predicciones de la
estructura génica a nivel de regiones genómicas extensas [9,10]. Los predictores de estructura génica tienen como
base la idea de encontrar regiones con la más alta probabilidad de describir
los límites reales entre intrones y exones, predecir los sitios de inicio de la
transcripción y delinear las señales de inicio y de parada de un marco de
lectura (la región del gen que contiene la información a ser traducida en
proteínas). Para lograr dicho objetivo los predictores utilizan sets de
secuencias de entrenamiento que pueden se fragmentos expresados de ADN
complementario (ADNc o transcritos), o modelos probabilísticos que incluyen
descripciones de las señales que se quieren buscar en la estructura del gen, su
distribución, su longitud y la composición de bases en cada región. Posiblemente
uno de los programas más usados en la actualidad que utiliza modelos ocultos de
markov (un modelo matemático probabilístico) es Augustus [11], que logra determinar los modelos génicos basado en
los patrones derivados de especies predeterminadas. Augustus además permite
ingresar secuencias de entrenamiento específicas para la especie que se quiere
evaluar. Los predictores de estructura génica permiten entonces cumplir con el
primer paso de delimitar al gen y localizarlo, pero más recientemente, como
veremos a continuación, nuevas estrategias se han diseñado para mejorar aún más
dicha predicción.
Si bien es cierto que los modelos matemáticos
implementados por programas como GENESCAN pueden ser muy útiles para casos
específicos, cada especie tiene particularidades en la estructura e incluso con
un modelo bien diseñado, predecir características como los límites entre exones
e intrones es una labor complicada y de baja precisión [1]. Es por eso que utilizar dicha predicción en
complemento con la comparación del gen a una región transcrita es una de las herramientas más
eficaces. Por esta razón, la comparación no solo con secuencias transcritas del
mismo genoma (conocida como alineamiento en cis),
sino con transcritos de especies cercanas (conocida como alineamiento en
trans), son recursos útiles para la definición de la estructura génica [12]. Entre los programas para alineamiento de secuencias
de ADN complementario (transcritos) a ADN genómico se encuentran GMAP [13] y BLAT [14], este último es una modificación de BLAST con un
algoritmo mucho más rápido y que permite partir la secuencia del transcrito en
pedazos que se alinean a un genoma evidenciando los exones e intrones. En esta
misma línea de ideas, los anotadores vieron que si dos especies eran cercanas y
una de ellas disponía ya de anotación genómica, esta se podía utilizar como
modelo para encontrar la estructura de los genes homólogos, pues los patrones
de los genes suelen estar relativamente conservados. Programas como TWINSCAN,
N-SCAN y CONTRAST (revisados en Brent
2008), permiten hacer comparaciones con uno o más genomas para guiar la
anotación estructural de los genes. La predicción génica usando múltiples
genomas es una mejora notable sobre los predictores con modelos matemáticos,
pues además del modelo probabilístico se adiciona un nivel comparativo global.
Una vez los genes se han delimitado es hora de asignarles
una posible función. En un principio la predicción funcional se hacía casi
completamente usando los distintos algoritmos de BLAST [15]. Esta herramienta permitía comparar el gen en
cuestión contra cualquier otra secuencia anotada previamente en la base de
datos del banco de genes –Genbank- (http://www.ncbi.nlm.nih.gov/genbank/). Sin embargo, el nivel de curaduría de los genes en el Genbank no es muy alto y las funciones
asignadas por similitud pueden no siempre ser apropiadas, por lo cual es
recomendable anotar los genes basándose en secuencias traducidas que hayan sido
filtradas y confirmadas como las consignadas en Swiss-Prot/UniProtKB (http://www.ebi.ac.uk/uniprot). En ocasiones no es posible asignar una función usando comparación con
las secuencias de las bases de datos. En este caso encontrar características
dentro del gen, como dominios o señales, se constituye en una herramienta útil
para aportar pistas sobre la función génica. PFAM (http://pfam.sanger.ac.uk/) es una base de datos de familias proteicas que
permite identificar dominios funcionales en regiones génicas utilizando
alineamientos múltiples y modelos ocultos de markov. Aunque un dominio
funcional no permite asignar un nombre directamente al gen, si puede dar una
idea de la familia génica a la que pertenece el gen, o indicar el grupo de
procesos en los que pueda estar involucrado. Muchos otros algoritmos han sido
creados para encontrar dominios o señales génicas específicas (e.g. PRINTS,
PROSITE), pero ahora es posible buscar en todas estas bases de datos usando un
servidor centralizado llamado Interpro (http://www.ebi.ac.uk/interpro/) y su herramienta de búsqueda (InterproScan- http://www.ebi.ac.uk/Tools/pfa/iprscan/) que permite utilizar 15 algoritmos distintos. La
mayoría de las herramientas mencionadas poseen interfaces amigables para analizar
unas cuantas secuencias, pero si usted tiene la tarea de anotar un genoma será
necesario instalar la herramienta localmente y analizar el genoma utilizando
algunos comandos básicos de Linux. Una vez usted ha asignado estructura y
función putativa a sus genes podríamos decir que tiene una anotación básica del
genoma. Sin embargo, aquí no termina su tarea.
Actualmente es casi que un estándar cuando se publica
un genoma nuevo describir la distribución de los genes encontrados en
categorías funcionales. Para tal propósito existe Gene Ontology (GO) (http://www.geneontology.org/). GO ha sido posiblemente el intento más exitoso para generar un
vocabulario controlado y estandarizado de las funciones de los genes a partir
de tres categorías: función molecular, proceso biológico y componente celular.
La estructura jerárquica de GO permite clasificar casi cualquier gen, y de esta
manera los genes anotados de un genoma pueden ser agrupados en categorías
específicas, dando una idea de las distribuciones funcionales.
Finalmente hay que resaltar que en la última década
todas aquellos fragmentos de ADN no codificantes, considerados previamente como
basura, han sido estudiados en más detalle y nuevas funciones están emergiendo
para regiones antes no estudiadas. Regiones que codifican para ARN estructural
y regulatorio y elementos transponibles (ETs) [16] han demostrado tener funciones de importancia en la
regulación y evolución del genoma. Nuevas bases de datos son creadas con
frecuencia para lograr anotar dichas regiones, aunque su alta variabilidad hace
esta labor más difícil que la anotación génica. De hecho, encontrar y anotar
las secuencias repetitivas correspondientes a los elementos transponibles es
posiblemente el primer paso de la anotación de genomas, incluso antes de
encontrar los genes, pues es necesario descartar los ETs para no hacer
predicciones equivocas de genes en estas regiones. Cuando adicionamos todo este
ADN que previamente no era caracterizado podemos decir que la anotación de un
genoma es en sí la anotación de casi toda su secuencia.
Presente, retos y futuro de la anotación genómica
La automatización de los procesos de anotación y el
uso de nuevas tecnologías permiten tener cada vez más información. Actualmente
existen herramientas como ENSEMBL (http://uswest.ensembl.org/index.html) que automatizan el proceso de anotación genómica con
un nivel de curaduría básico, ENSEMBL mantiene, por ejemplo, una anotación
detallada del genoma humano. Existen así mismo bases de datos, de genomas
completamente anotados, y con un nivel de filtros y revisiones más detalladas,
como es el caso de TAIR (http://www.arabidopsis.org/) diseñada a partir de la planta modelo Arabidopsis
thaliana. Las nuevas tecnologías de secuenciación hacen cada vez más fácil
conseguir genomas completos en un tiempo menor, y así mismo permiten la
secuenciación directa de ARN que puede ser utilizado para encontrar la
estructura génica como se hacía con el ADN complementario [17]. Estas herramientas están generando actualmente un
crecimiento exponencial en la información anotada disponible y en la que aún
está por procesar.
Todavía sin embargo existen detalles a mejorar en la
anotación de genomas. Por ejemplo un porcentaje del 20-40% del ADN
complementario (ADNc) siempre estará ausente en las librerías de transcritos [12]. Esto es debido a varias razones: i) hay genes muy
grandes y la síntesis de ADNc no es un proceso perfecto, ii) hay secuencias que
se expresan con baja abundancia y no son detectadas, iii) es imposible tener
todos los transcritos que corresponden a todos los genes pues los organismos
expresan sus genes en diferentes estados de desarrollo, en diferentes partes o
ante distintos estímulos externos. El problema del ADNc puede ser aliviado en
parte con la secuenciación de ARN, sin embargo las nuevas tecnologías de
secuenciación tienen así mismo un cuello de botella, pues los fragmentos que
resultan de la secuenciación son muy pequeños lo que hace difícil ensamblar
ciertas regiones del genoma. Otro problema surge también cuando se utilizan
alineamientos en trans con ADNc o
proteínas de especies afines; muchas veces los genes que se comparan son
parálogos (generados por duplicación génica) y no ortólogos (genes que
corresponden exactamente al mismo gen en dos especies), lo cual genera un problema
en el momento de asignar una función por similitud ya que los genes parálogos
pueden parecerse a nivel de secuencia pero tener funciones divergentes [1]. Finalmente un problema técnico muy común es la propagación
de anotaciones erradas. Muchas veces los genes que se consignan en las bases de
datos han sido incorrectamente caracterizados y muchos investigadores realizan
sus anotaciones a partir de la similitud con esos genes; los nuevos genes
estarán anotados incorrectamente y el error puede seguirse propagando. Estos
son solo algunos de los problemas técnicos que se dan con la anotación
genómica, pero otros factores inherentes al genoma como las secuencias
repetidas, el splicing diferencial
(diferentes transcritos creados a partir de un solo gen), los límites de los
promotores y las regiones hacen más complejo el proceso.
Y que esperamos para el futuro?.... Pues debido a que
las nuevas tecnologías de secuenciación parecen estar avanzando más rápido de
lo que podemos procesar los datos, serán necesarias nuevas plataformas ‘pipelines’ que permitan automatizar el
proceso de ensamblaje del genoma, el descarte de secuencias repetidas, la búsqueda
de estructuras utilizando algoritmos predictivos y el mapeo de ARN, para
finalmente generar un resultado visual detallado de todo el genoma. Así mismo
son necesarias técnicas de laboratorio que permitan evaluar y comprobar las
funciones potenciales asignadas mediante la anotación. Análisis de alta
eficiencia de transcriptómica, metabolómica, proteómica y localización temporal
y celular deben ser integrados en programas que permitan analizar al organismo
en un contexto sistémico. La labor de anotar un genoma parece hacerse más compleja
cada día debido a las nuevas funciones que se han encontrado para regiones que
se creían no funcionales en el pasado, y debido a que la cantidad de
información que se produce va en aumento exponencial. Sin embargo, los que se
enfrentan al reto de anotar correctamente un genoma completo podrán al final
tener una recompensa de tamaño similar a dicha labor titánica.
Referencias
1. Stein L
(2001) Genome annotation: from sequence to biology. Nature Reviews Genetics 2:
494–503.
2. Fiers W, Contreras R,
Duerinck F, Haegman G, Iserentant D, et al. (1976) Complete nucleotide sequence
of bacteriophage MS2 RNA: primary and secondaty structure of the replicase
gene. Nature 260: 500–507.
3. Sanger F, Air G, Barrell B,
Brown N, Coulson A, et al. (1977) Nucleotide sequence of bacteriophage X174
DNA. Nature 265: 687–695.
4. Wain-Hobson S, Sonigo P,
Danos O, Cole S, Alizon M (1985) Nucleotide sequence of the AIDS virus, LAV.
Cell 40: 9–17. Available: http://www.ncbi.nlm.nih.gov/pubmed/2424612.
5. Fleischmann RD, Adams MD,
White O, Clayton R a, Kirkness EF, et al. (1995) Whole-genome random sequencing
and assembly of Haemophilus influenzae Rd. Science (New York, NY) 269: 496–512.
Available: http://www.ncbi.nlm.nih.gov/pubmed/7542800.
6. Blattner FR (1997) The
Complete Genome Sequence of Escherichia coli K-12. Science 277: 1453–1462.
Available: http://www.sciencemag.org/cgi/doi/10.1126/science.277.5331.1453.
Accessed 24 May 2013.
7. Goffeau AA, Barrell BG,
Bussey H, Davis RW, Dujon B, et al. (1996) Life with 6000 Genes Life with.
Science 274.
8. Rouze P, Pavy N, Rombauts S
(1999) Genome annotation : which tools do we have for it ? Current Opinion in
Plant Biology 2: 90–95.
9. Xu Y, Uberbacher EC (1997)
Automated gene identification in large-scale genomic sequences. Journal of
computational biology 4: 325–338.
10. Burge C, Karlin S (1997)
Prediction of complete gene structures in human genomic DNA. Journal of
molecular biology 268: 78–94. Available:
http://www.ncbi.nlm.nih.gov/pubmed/9149143.
11. Stanke M, Waack S (2003)
Gene prediction with a hidden Markov model and a new intron submodel.
Bioinformatics 19: ii215–ii225. Available:
http://bioinformatics.oxfordjournals.org/cgi/doi/10.1093/bioinformatics/btg1080.
Accessed 24 May 2013.
12. Brent MR (2008) Steady
progress and recent breakthroughs in the accuracy of automated genome
annotation. Nature reviews Genetics 9: 62–73. Available:
http://www.ncbi.nlm.nih.gov/pubmed/18087260. Accessed 27 May 2013.
13. Wu TD, Watanabe CK (2005)
GMAP: a genomic mapping and alignment program for mRNA and EST sequences.
Bioinformatics 21: 1859–1875. Available:
http://www.ncbi.nlm.nih.gov/pubmed/15728110. Accessed 3 June 2013.
14. Kent WJ (2002) BLAT −− The
BLAST-Like Alignment Tool BLAT — The BLAST-Like Alignment Tool: 656–664.
doi:10.1101/gr.229202.
15. Altschul S, Gish W, Miller
W, Myers E, Lipman D (1990) Basic local alignment search tool. Journal of
molecular biology 215: 403–410.
16. Galindo L (2012) Los
intrincados movimientos del ADN. blog biogenic. Available:
http://biogenic-colombia.blogspot.ca/2012/08/los-intrincados-movimientos-del-adn-por.html.
17. Yandell M, Ence D (2012) A
beginner’s guide to eukaryotic genome annotation. Nature reviews Genetics 13:
329–342. Available: http://www.ncbi.nlm.nih.gov/pubmed/22510764. Accessed 22
May 2013.
Category:
algoritmo,
Anotación de genomas,
bioinformática,
genoma,
secuenciación
| 1 Comment
¡Muchas gracias por el post! Me ha resultado muy interesante y me ha aclarado muchas dudas que tenía. MUY bien explicado.