BIOGENIC Biólogos Genetistas Colombianos: marzo 2013

Bases de datos: La información biológica a un clic de distancia

Author: BIOGENIC on jueves, 28 de marzo de 2013

Bases de datos: La información biológica a un clic de distancia

Por Lorena López-Galvis

La información contenida en el ADN, las proteínas, los metabolitos y todas aquellas moléculas formadoras de nuestras células y de nuestro organismo, pueden registrarse en bases de datos, que alojan los datos moleculares tanto de los seres humanos como de otros organismos de interés que han investigado a fondo los científicos. Cuando una pregunta biológica surge tenemos diferentes métodos para llegar a responderla, sin embargo si hablamos de biología molecular es la bioinformática la que nos permite de manera más holística enfrentar ese tipo de preguntas, ya que se encarga de la compilación, almacenamiento, análisis e integración de la información molecular de los organismos para entender determinado proceso [1]. Este artículo muestra las bases de datos más usadas para extraer información sobre preguntas específicas de investigación que nos interesa solucionar usando bioinformática y evidencia los alcances de esta disciplina con tan solo tener acceso a internet.

¿Qué es una base de datos?

La secuenciación de genomas y otros múltiples proyectos de investigación de gran escala han generado una cantidad enorme de datos biológicos moleculares, como lo son proyectos específicos en transcriptómica, metabolómica, proteómica, etc. Esta información se ha depositado en bases de datos que constituyen colecciones estructuradas de información que permiten realizar búsquedas específicas (filtrar la información) para responder preguntas de investigación. Las bases de datos se actualizan constantemente y actualmente existen cientos de bases de datos públicas y gratuitas de acceso directo para estudios de bioinformática [2].

Una base de datos se forma por medio de la extracción de datos moleculares (ejemplo: secuencias de ADN o estructuras de proteínas) de las publicaciones científicas o de los proyectos de investigación pertinentes. Estos pasan por un proceso de filtrado, transformación, curación y anotación manual, y por esto las bases de datos no son la fuente primaria de la información. Cada dato requiere de un código de identificación tanto para citarlo en publicaciones, como para retomar la estructura básica de cómo se generó dicha información.

La mayoría de las bases de datos son de acceso libre para el público, sin embargo hay unas que son privadas y exigen al usuario pagar para usarlas. Ese es el caso de bases de datos que se han formado, por ejemplo, a partir de la inversión de grandes compañías en la obtención de un genoma, transcriptoma o proteoma específico, sin embargo en otros casos, estas bases de datos se han formado a partir de publicaciones científicas que son de libre acceso por lo cual no deberían conformarse de manera privada.

Teniendo en cuenta que la mayoría de investigación molecular, incluyendo la secuenciación del genoma, se hace en organismos como el hombre (Homo sapiens), el nematodo (Caenorhabditis elegans), el ratón (Mus musculus) y la planta modelo Arabidopsis (Arabidopsis thaliana), existen diferentes tipos de bases de datos que incluyen información sobre nucleótidos, proteínas, estructura, microarreglos, mutantes, rutas metabólicas e inclusive literatura referente a estos organismos, e.g. GeneCards (sigla en inglés para The Human Gene Compendium) para H. sapiens, WormBase (Nematode Information Resource) para C. elegans, TAIR (sigla en inglés para The Arabidopsis Information Resource) para A. thaliana y MGI (sigla en inglés para Mouse Genome Informatics) para M. musculus.

Adicionalmente, dado que muchas investigaciones científicas son proyectos a gran escala con uso de tecnologías de secuenciación, transcriptómica, proteómica, etc, la generación masiva de datos requiere de un análisis extensivo, por esto existen servicios analíticos que desarrollan herramientas para que el investigador analice los datos obtenidos facilitando su uso eficiente de dichos datos sin que el investigador tenga que ser un experto en bioinformatica, e.g. Golden Helix (http://www.goldenhelix.com/ ) y Genomatix (http://www.genomatix.de/ ).

Bases de datos de nucleótidos

Existen tres grandes bases de datos dedicadas principlamente a la compilación de secuencias nucleotídicas: EMBL (sigla en inglés para European Molecular Biology Laboratory, http://www.ebi.ac.uk/ ), GenBank (del National Centre for Biotecnological Information, http://www.ncbi.nlm.nih.gov/genbank/) y DDJB (sigla en inglés para DNA Databank of Japan, http://www.ddbj.nig.ac.jp/ ) que constituyen la Colaboración Internacional de Bases de Datos de Secuencias de Nucleótidos [4]. Estas bases de datos se sincronizan diariamente entre ellas para mantener las mismas secuencias anotadas en las bases de datos, sin embargo la manera como están organizadas, anotadas y codificadas varía entre las tres.

Genbank aloja la información nucleotídica de más de 55.000 organismos diferentes. Es la fuente primaria de información ya que los autores envían las secuencias de sus publicaciones a esta base de datos. También ofrece información proveniente de otras bases de datos que incluyen: funcionalidad, actividad celular, ontología, interacciones con otros genes, rutas metabólicas, fenotipos, homología con otros genes, genes ortólogos y artículos científicos reportando el gen. Por otro lado, EMBL posee múltiples interfaces que permiten realizar búsquedas filtradas de genes de interés; Ensembl (http://www.ensembl.org/index.html ) desarrollo un software para producir y mantener automáticamente anotaciones de genomas eucariotas seleccionados, por medio de SRS (sigla en inglés para EBI´s Sequence Retrieval System, http://srs.ebi.ac.uk/srsbin/cgi-bin/wgetz?-page+srsq2+-noSession ) (Figura 1) se pueden usar diferentes bases de datos especializadas en nucleótidos y proteínas, también permite la ejecución de búsquedas de similaridad de secuencias tanto de nucleótidos (por medio de BLAST-Basic Local Alignment Sequence Tool) como de proteínas (usando Swiss-Prot).

Figura 1. Ensembl posee diferentes herramientas que permiten analizar la secuencia de nucleótidos de un gen, en este ejemplo se muestra un árbol de similaridad del gen BRC2 en eucariotes. Tomado de http://www.ensembl.org/Homo_sapiens/Gene/Compara_Tree?g=ENSG00000139618;r=13:32889611-32973805 .

Bases de datos de proteínas

Adicional a la información sobre secuencias de aminoácidos de proteínas, este tipo de bases de datos incluye información sobre función, estructura, motivos o dominios, modificaciones post-traduccionales, familias, actividad catalítica, asociación de subunidades, ligandos, constituciones químicas, tipo de enlaces, secuencias similares, enfermedades asociadas a mutaciones de la proteína o a deficiencias en ella, literatura científica relevante, entre otros. La base de datos que centraliza la mayor cantidad de información sobre proteínas es UniProt (sigla en inglés para Universal Protein Resource, http://www.uniprot.org/ ) (Figura 2), ya que conjuga las bases de datos de Swiss-Prot (http://web.expasy.org/docs/swiss-prot_guideline.html ) y PIR (http://pir.georgetown.edu/ ) establecidas alrededor de 1986. La función de UniProt es ser fuente de secuencias y funciones de proteínas de manera comprensiva y con alta calidad [5], para esto incluye diferentes herramientas desde información curada de cada proteína hasta clusters con diferentes secuencias relacionadas.

Figura 2. UniProt es una colaboración entre el Instituto Europeo de Bioinformática (EBI), el Instituto Suizo de Bioinformática (SIB) y la Fuente de Información de Proteínas (PIR). Los tres institutos desarrollan tareas en la curación de la base de datos, desarrollo de software y apoyo al usuario. Tomado de http://www.uniprot.org/help/about.

Adicionalmente existen bases de datos exclusivas sobre estructura de proteínas por medio de las cuales se puede ver su estructura tridimensional. Estos repositorios se basan en las coordenadas atómicas de las proteínas que han sido estudiadas por medio de cristalografía de rayos X y espectroscopía NMR (sigla en inglés para Nuclear Magnetic Resonance). Esta información sobre estructuras macromoleculares como proteínas y carbohidratos se encuentra principalmente en el PDB (sigla en inglés para Protein Data Bank, http://www.rcsb.org/pdb/home/home.do ) [6] (Figura 3), que incluye también acceso a estudios y bases de datos sobre drogas y blancos de drogas, lo cual es interesante para estudios de terapias específicas para ciertas enfermedades.

Figura 3. La eritrocuorina de las lombrices de tierra está construida de diversos tipos de cadenas. Este Jmol incluye el protomero, el cual está compuesto de cuatro tipos de cadenas de hemoglobina (mostradas en rosado y violeta) y tres tipos de cadenas de unión (mostradas en azul y verde). Todo el complejo es aun mas grande ya que lo componen doce de estos protomeros. Para interactuar con esta estructura visite http://www.rcsb.org/pdb/101/motm.do?momID=159. Tomado de PDB [6].

De manera más integral existen bases de datos de interacciones proteína-proteína que son útiles para ver el contexto biológico y funcional de determinada proteína. STRING (sigla en inglés para Searching Tool for the Retrieval of Interacting Genes and Proteins, http://string-db.org/ ) incluye interacciones de proteínas y genes que han sido reportadas o que se pueden predecir basándose en evidencias de estructura y función [7]. Integra básicamente cuatro fuentes de información como lo son contextos genómicos, experimentos de alta eficiencia, redes de co-expresión y conocimientos publicados, los cuales le permiten establecer interacciones directas (físicas) e indirectas (funcionales) de cualquiera de las mas de 5 millones de proteínas de cerca de 1100 organismos que aloja en su base de datos.

Bases de datos de microarreglos

Los microarreglos permiten establecer la expresión de miles de genes bajo un mismo tratamiento, midiendo la abundancia de mRNA. Ya que un solo experimento de microarreglos genera una cantidad elevada de datos, se requiere de repositorios que guarden toda esta información y que además ofrezcan herramientas de análisis que conjuguen todos los experimentos para entender que estímulos afectan la expresión de un gen o varios genes en cuestión. GEO (de la sigla en inglés Gene Expression Omnibus) (http://www.ncbi.nlm.nih.gov/geo/ ) es un repositorio de datos genómicos de 3200 experimentos de microarreglos que incluyen cerca de 898000 muestras. GEO posee una serie de herramientas y aplicaciones para que el usuario realice búsquedas, filtre la información y descargue los estudios y patrones de expresión de su gen de interés. ArrayExpress (http://www.ebi.ac.uk/arrayexpress/ ) ofrece tanto los datos de microarreglos como los de estudios de secuenciación de alta eficiencia [8] y permite por medio del “Expression Atlas” explorar los patrones de expresión de genes por medio de meta-analisis de los microarreglos disponibles [9]. Genevestigator (https://www.genevestigator.com/gv/ ) es una poderosa herramienta que integra tanto datos moleculares como clínicos, y adicionalmente ofrece los patrones de expresión de genes de plantas de una manera visual muy eficiente y clara [10].

Bases de datos de rutas

Estas bases de datos describen las rutas bioquímicas, reacciones y enzimas que pueden ser modeladas y simuladas tomando los datos de KEGG (sigla en inglés para Kyoto Encyclopedia of Genes and Genomes, www.genome.jp/kegg/ ) u otras bases de datos como BioCyc y Reactome. KEGG se basa en información experimentos que incluyen gran cantidad de datos genómicos, transcriptómicos, proteómicos y metabolómicos para dibujar mapas que son curados a mano sobre rutas metabólicas (Figura 4), procesamiento de información genética, procesamiento de información ambiental, procesos celulares, sistemas organísmicos, enfermedades humanas y desarrollo de drogas; todo esto con el fin de dar un significado sistémico a las funciones biológicas [11].

Figura 4. Mapa de la ruta del metabolismo de la cafeína. En cuadros redondeados se encuentran rutas metabólicas específicas, en rectángulos está la información de la proteína catalizadora de la reacción de producción de un compuesto a partir de otro. Interactúe con este mapa en http://www.kegg.jp/kegg/pathway/map/map00232.html . Tomado de KEGG [11].

Bases de datos de literatura

Los artículos científicos publicados se alojan en bases de datos que permiten al usuario filtrar información de su interés (genes, proteínas, funciones, autores). El usuario accede al título, autores, resumen, fecha de publicación y palabras clave de publicaciones científicas. La base de datos de literatura científica de mayor uso es PubMed (desarrollada por el U.S. National Library of Medicine, http://www.ncbi.nlm.nih.gov/pubmed/ ) que contiene más de 22 millones de citaciones de literatura biomédica de MEDLINE, revistas de ciencia y libros en línea desde 1966, y adicionalmente provee links de acceso directo a los resúmenes o al artículo científico en su totalidad [12].

Por medio de las bases de datos la investigación científica ha tenido grandes y rápidos adelantos, ya que el advenimiento de grandes proyectos que incluyen -omicas ha generado la exploración masiva de datos moleculares de ciertos organismos, logrando de esa manera ver los sistemas tanto de manera holística como de manera especifica si se requiriera. No hay duda del gran adelanto científico que se ha tenido gracias a las herramientas bioinformaticas que han analizado todos estos grandes sets de datos. Ahora la posibilidad de despejar preguntas científicas requiere de unas cuantas horas frente al computador y de una mente capaz de abstraer lo esencial para conectar toda la información que se encuentra disponible en línea, y de esta manera plantear preguntas y experimentos elaborados a partir de hipótesis que tiempo atrás, hubieran requerido de muchas horas de trabajo experimental en el laboratorio con todo lo que esto implica (dinero, tiempo, mano de obra, etc).

Referencias

[1] Arango-Velez, Adriana. 2013. Introducción a la bioinformática. Blog BIOGENIC. http://biogenic-colombia.blogspot.com/2013/03/introduccion-la-bioinformatica-por.html

[2] http://www.bioinformatics.nl/webportal/background/databases.html

[3] http://bioinformatics.igc.gulbenkian.pt/resources/databases/organismspecificdatabases/

[4] http://www.ncbi.nlm.nih.gov/collab/

[5] http://www.ebi.ac.uk/uniprot

[6] http://www.rcsb.org/pdb/home/home.do

[7] http://string-db.org/

[8] http://www.ebi.ac.uk/arrayexpress/

[9] http://www.ebi.ac.uk/gxa/

[10] https://www.genevestigator.com/gv/

[11] http://www.kegg.jp/kegg/