Bases de datos: La información biológica a un clic de distancia
Por Lorena López-Galvis
La información contenida en el ADN, las proteínas, los
metabolitos y todas aquellas moléculas formadoras de nuestras células y de
nuestro organismo, pueden registrarse en bases de datos, que alojan los datos
moleculares tanto de los seres humanos como de otros organismos de interés que
han investigado a fondo los científicos. Cuando una pregunta biológica surge
tenemos diferentes métodos para llegar a responderla, sin embargo si hablamos
de biología molecular es la bioinformática la que nos permite de manera más
holística enfrentar ese tipo de preguntas, ya que se encarga de la compilación,
almacenamiento, análisis e integración de la información molecular de los
organismos para entender determinado proceso [1]. Este artículo muestra las
bases de datos más usadas para extraer información sobre preguntas específicas
de investigación que nos interesa solucionar usando bioinformática y evidencia los
alcances de esta disciplina con tan solo tener acceso a internet.
¿Qué es una base de
datos?
La secuenciación de
genomas y otros múltiples proyectos de investigación de gran escala han
generado una cantidad enorme de datos biológicos moleculares, como lo son
proyectos específicos en transcriptómica, metabolómica, proteómica, etc. Esta
información se ha depositado en bases de datos que constituyen colecciones estructuradas
de información que permiten realizar búsquedas específicas (filtrar la
información) para responder preguntas de investigación. Las bases de datos se actualizan constantemente
y actualmente existen cientos de bases de datos públicas y gratuitas de acceso
directo para estudios de bioinformática [2].
Una base de datos se forma por medio de la extracción de
datos moleculares (ejemplo: secuencias de ADN o estructuras de proteínas) de
las publicaciones científicas o de los proyectos de investigación pertinentes.
Estos pasan por un proceso de filtrado, transformación, curación y anotación
manual, y por esto las bases de datos no son la fuente primaria de la
información. Cada dato requiere de un
código de identificación tanto para citarlo en publicaciones, como para retomar
la estructura básica de cómo se generó dicha información.
La mayoría de las bases de datos son de acceso libre para el
público, sin embargo hay unas que son privadas y exigen al usuario pagar para
usarlas. Ese es el caso de bases de datos que se han formado, por ejemplo, a partir de la inversión de
grandes compañías en la obtención de un genoma, transcriptoma o proteoma específico,
sin embargo en otros casos, estas bases de datos se han formado a partir de
publicaciones científicas que son de libre acceso por lo cual no deberían
conformarse de manera privada.
Teniendo en cuenta que la mayoría de investigación molecular,
incluyendo la secuenciación del genoma, se hace en organismos como el hombre (Homo sapiens), el nematodo (Caenorhabditis elegans), el ratón (Mus
musculus) y la planta modelo Arabidopsis
(Arabidopsis thaliana), existen diferentes tipos de bases de datos que
incluyen información sobre nucleótidos, proteínas, estructura, microarreglos,
mutantes, rutas metabólicas e inclusive literatura referente a estos organismos,
e.g. GeneCards (sigla en inglés para The Human Gene Compendium) para H. sapiens, WormBase (Nematode
Information Resource) para C. elegans,
TAIR (sigla en inglés para The Arabidopsis Information Resource) para A. thaliana y MGI (sigla en inglés para Mouse
Genome Informatics) para M. musculus.
Adicionalmente, dado que muchas investigaciones científicas
son proyectos a gran escala con uso de tecnologías de secuenciación,
transcriptómica, proteómica, etc, la generación masiva de datos requiere de un
análisis extensivo, por esto existen
servicios analíticos que desarrollan herramientas para que el investigador
analice los datos obtenidos facilitando su uso eficiente de dichos datos sin
que el investigador tenga que ser un experto en bioinformatica, e.g. Golden
Helix (http://www.goldenhelix.com/ )
y Genomatix (http://www.genomatix.de/ ).
Bases de datos de
nucleótidos
Existen tres grandes bases de datos dedicadas principlamente
a la compilación de secuencias nucleotídicas: EMBL (sigla en inglés para European
Molecular Biology Laboratory, http://www.ebi.ac.uk/
), GenBank (del National Centre for Biotecnological Information, http://www.ncbi.nlm.nih.gov/genbank/)
y DDJB (sigla en inglés para DNA Databank of Japan, http://www.ddbj.nig.ac.jp/ ) que
constituyen la Colaboración Internacional de Bases de Datos de Secuencias de Nucleótidos
[4]. Estas bases de datos se sincronizan diariamente entre ellas para mantener
las mismas secuencias anotadas en las bases de datos, sin embargo la manera
como están organizadas, anotadas y codificadas varía entre las tres.
Genbank aloja la información nucleotídica de más de 55.000
organismos diferentes. Es la fuente primaria de información ya que los autores
envían las secuencias de sus publicaciones a esta base de datos. También ofrece
información proveniente de otras bases de datos que incluyen: funcionalidad,
actividad celular, ontología, interacciones con otros genes, rutas metabólicas,
fenotipos, homología con otros genes, genes ortólogos y artículos científicos
reportando el gen. Por otro lado, EMBL
posee múltiples interfaces que permiten realizar búsquedas filtradas de genes
de interés; Ensembl (http://www.ensembl.org/index.html
) desarrollo un software para producir y mantener automáticamente anotaciones
de genomas eucariotas seleccionados, por medio de SRS (sigla en inglés para EBI´s Sequence Retrieval System, http://srs.ebi.ac.uk/srsbin/cgi-bin/wgetz?-page+srsq2+-noSession
) (Figura 1) se pueden usar diferentes bases de datos especializadas en
nucleótidos y proteínas, también permite la ejecución de búsquedas de
similaridad de secuencias tanto de nucleótidos (por medio de BLAST-Basic Local
Alignment Sequence Tool) como de proteínas (usando Swiss-Prot).
Figura 1. Ensembl posee
diferentes herramientas que permiten analizar la secuencia de nucleótidos de un
gen, en este ejemplo se muestra un árbol de similaridad del gen BRC2 en eucariotes.
Tomado de http://www.ensembl.org/Homo_sapiens/Gene/Compara_Tree?g=ENSG00000139618;r=13:32889611-32973805
.
|
Bases de datos de proteínas
Adicional a la información sobre secuencias de aminoácidos
de proteínas, este tipo de bases de datos incluye información sobre función,
estructura, motivos o dominios, modificaciones post-traduccionales, familias,
actividad catalítica, asociación de subunidades, ligandos, constituciones
químicas, tipo de enlaces, secuencias similares, enfermedades asociadas a
mutaciones de la proteína o a deficiencias en ella, literatura científica
relevante, entre otros. La base de datos
que centraliza la mayor cantidad de información sobre proteínas es UniProt (sigla
en inglés para Universal Protein Resource, http://www.uniprot.org/
) (Figura 2), ya que conjuga las bases de datos de Swiss-Prot (http://web.expasy.org/docs/swiss-prot_guideline.html
) y PIR (http://pir.georgetown.edu/ )
establecidas alrededor de 1986. La función de UniProt es ser fuente de
secuencias y funciones de proteínas de manera comprensiva y con alta calidad
[5], para esto incluye diferentes herramientas desde información curada de cada
proteína hasta clusters con diferentes secuencias relacionadas.
Figura 2. UniProt es una colaboración entre el Instituto
Europeo de Bioinformática (EBI), el Instituto Suizo de Bioinformática (SIB) y
la Fuente de Información de Proteínas (PIR). Los tres institutos desarrollan
tareas en la curación de la base de datos, desarrollo de software y apoyo al
usuario. Tomado de http://www.uniprot.org/help/about.
|
Adicionalmente existen bases de datos exclusivas sobre
estructura de proteínas por medio de las cuales se puede ver su estructura
tridimensional. Estos repositorios se basan en las coordenadas atómicas de las
proteínas que han sido estudiadas por medio de cristalografía de rayos X y
espectroscopía NMR (sigla en inglés para Nuclear Magnetic Resonance). Esta
información sobre estructuras macromoleculares como proteínas y carbohidratos
se encuentra principalmente en el PDB (sigla en inglés para Protein Data Bank, http://www.rcsb.org/pdb/home/home.do
) [6] (Figura 3), que incluye también acceso a estudios y bases de datos sobre
drogas y blancos de drogas, lo cual es interesante para estudios de terapias
específicas para ciertas enfermedades.
Figura 3. La eritrocuorina de las lombrices de tierra está
construida de diversos tipos de cadenas. Este Jmol incluye el protomero, el
cual está compuesto de cuatro tipos de cadenas de hemoglobina (mostradas en
rosado y violeta) y tres tipos de cadenas de unión (mostradas en azul y verde).
Todo el complejo es aun mas grande ya que lo componen doce de estos protomeros.
Para interactuar con esta estructura visite http://www.rcsb.org/pdb/101/motm.do?momID=159. Tomado de PDB [6].
|
De manera más integral existen bases de datos de
interacciones proteína-proteína que son útiles para ver el contexto biológico y
funcional de determinada proteína. STRING (sigla en inglés para Searching Tool
for the Retrieval of Interacting Genes and Proteins, http://string-db.org/ ) incluye interacciones
de proteínas y genes que han sido reportadas o que se pueden predecir basándose
en evidencias de estructura y función [7]. Integra básicamente cuatro fuentes
de información como lo son contextos genómicos, experimentos de alta
eficiencia, redes de co-expresión y conocimientos publicados, los cuales le
permiten establecer interacciones directas (físicas) e indirectas (funcionales)
de cualquiera de las mas de 5 millones de proteínas de cerca de 1100 organismos
que aloja en su base de datos.
Bases de datos de
microarreglos
Los microarreglos permiten establecer la expresión de miles
de genes bajo un mismo tratamiento, midiendo la abundancia de mRNA. Ya que un
solo experimento de microarreglos genera una cantidad elevada de datos, se
requiere de repositorios que guarden toda esta información y que además
ofrezcan herramientas de análisis que conjuguen todos los experimentos para
entender que estímulos afectan la expresión de un gen o varios genes en
cuestión. GEO (de la sigla en inglés
Gene Expression Omnibus) (http://www.ncbi.nlm.nih.gov/geo/
) es un repositorio de datos genómicos
de 3200 experimentos de microarreglos que incluyen cerca de 898000
muestras. GEO posee una serie de herramientas y aplicaciones para que el
usuario realice búsquedas, filtre la información y descargue los estudios y
patrones de expresión de su gen de interés. ArrayExpress (http://www.ebi.ac.uk/arrayexpress/
) ofrece tanto los datos de microarreglos como los de estudios de secuenciación
de alta eficiencia [8] y permite por medio del “Expression Atlas” explorar los
patrones de expresión de genes por medio de meta-analisis de los microarreglos
disponibles [9]. Genevestigator (https://www.genevestigator.com/gv/
) es una poderosa herramienta que integra tanto datos moleculares como clínicos,
y adicionalmente ofrece los patrones de expresión de genes de plantas de una
manera visual muy eficiente y clara [10].
Bases de datos de
rutas
Estas bases de datos describen las rutas bioquímicas,
reacciones y enzimas que pueden ser modeladas
y simuladas tomando los datos de KEGG (sigla en inglés para Kyoto
Encyclopedia of Genes and Genomes, www.genome.jp/kegg/
) u otras bases de datos como BioCyc y Reactome. KEGG se basa en
información experimentos que incluyen gran cantidad de datos genómicos,
transcriptómicos, proteómicos y metabolómicos para dibujar mapas que son
curados a mano sobre rutas metabólicas (Figura 4), procesamiento de información
genética, procesamiento de información ambiental, procesos celulares, sistemas
organísmicos, enfermedades humanas y desarrollo de drogas; todo esto con el fin
de dar un significado sistémico a las funciones biológicas [11].
Figura 4. Mapa de la ruta del metabolismo de la cafeína. En cuadros
redondeados se encuentran rutas metabólicas específicas, en rectángulos está la
información de la proteína catalizadora de la reacción de producción de un
compuesto a partir de otro. Interactúe con este mapa en http://www.kegg.jp/kegg/pathway/map/map00232.html
. Tomado de KEGG [11].
|
Bases de datos de
literatura
Los artículos científicos publicados se alojan en bases de
datos que permiten al usuario filtrar información de su interés (genes,
proteínas, funciones, autores). El usuario accede al título, autores, resumen,
fecha de publicación y palabras clave de publicaciones científicas. La base de datos de literatura científica de
mayor uso es PubMed (desarrollada por el U.S. National Library of Medicine, http://www.ncbi.nlm.nih.gov/pubmed/
) que contiene más de 22 millones de citaciones de literatura biomédica de
MEDLINE, revistas de ciencia y libros en línea desde 1966, y adicionalmente
provee links de acceso directo a los resúmenes o al artículo científico en su
totalidad [12].
Por medio de las bases de datos la investigación científica
ha tenido grandes y rápidos adelantos, ya que el advenimiento de grandes
proyectos que incluyen -omicas ha
generado la exploración masiva de datos moleculares de ciertos organismos,
logrando de esa manera ver los sistemas tanto de manera holística como de
manera especifica si se requiriera. No hay duda del gran adelanto
científico que se ha tenido gracias a las herramientas bioinformaticas que han
analizado todos estos grandes sets de datos. Ahora la posibilidad de despejar
preguntas científicas requiere de unas cuantas horas frente al computador y de
una mente capaz de abstraer lo esencial para conectar toda la información que
se encuentra disponible en línea, y de esta manera plantear preguntas y
experimentos elaborados a partir de hipótesis que tiempo atrás, hubieran
requerido de muchas horas de trabajo experimental en el laboratorio con todo lo
que esto implica (dinero, tiempo, mano de obra, etc).
Referencias
[1] Arango-Velez, Adriana.
2013. Introducción a la bioinformática. Blog BIOGENIC. http://biogenic-colombia.blogspot.com/2013/03/introduccion-la-bioinformatica-por.html