Subscribe RSS


Introducción a la bioinformática

Por Adriana Arango-Velez

Bioinformática es una palabra que actualmente está siendo ampliamente utilizada. ¿Y por qué es tan necesaria?, ¿Cuán importante es en el ambiente de la investigación?, ¿qué tipo de información podemos obtener a través de la bioinformática? Estos y otros aspectos como, las aplicaciones prácticas de la esta herrramienta serán tratados en este ensayo. Se hará énfasis en las diferentes herramientas disponibles para el análisis de secuencias nucleotídicas, proteicas y de ADN genómico.

Una herramienta útil en el ámbito de la genética y de la biología molecular

El acceso a nuevas y diversas tecnologías en genética y biología molecular, tales como la secuenciación a gran escala, el análisis diferencial de genes, y el desarrollo de modelos proteicos en 3D, entre otros, han creado la necesidad de utilizar herramientas como la bioinformática. Necesaria para la compilación, almacenamiento, análisis e integración de la información generada en las ciencias biológicas. De acuerdo al diccionario Inglés de Oxford se define como “una herramienta que utiliza técnicas informáticas (derivadas de disciplinas como matemáticas, ciencia computacional y estadística), para entender, organizar y analizar la información asociada a la biología molecular”. La bioinformática es esencial en la interpretación de información genómica para entender procesos biológicos y fisiológicos de diversos organismos, los cuales pueden ser dilucidados como información digital [1], [2].

Aunque las herramientas computacionales han estado disponibles desde los años 60s, sólo hasta los 90s, se empezó a utilizar el término de bioinformática, como un término directamente asociado al manejo y análisis del ADN, ARN y datos de secuencias proteicas. Actualmente este término se ha ampliado para incorporar otros tipos de datos biológicos, estructuras e interacciones proteicas y perfiles de expresión génica. De esta forma, desde moléculas hasta adaptaciones a respuestas ambientales están siendo analizadas a través de la bioinformática (Fig. 1). Como consecuencia, se han desarrollado diferentes estrategias para compilar procesar y analizar la información generada, siendo clasificadas en diferentes componentes, desde herramientas para organizar los datos generados en el laboratorio, hasta recursos que ayudan en el análisis e interpretación de los mismos [3], [4], [5], [6].



Figura 1. Sistemas biológicos interrelacionados analizados a través de herramientas bioinformáticas. Modificado de Westhead et al. 2002 [7].

El enfoque bioinformático está dividido en tres principales componentes:
I. Organización de los datos de manera que los investigadores puedan acceder a la información existente y someter nuevas entradas a las distintas bases de datos disponibles, por ejemplo bancos de datos basados en secuencias proteicas (PDB - http://www.rcsb.org/pdb/home/home.do), o repositorios de información para estructuras macromoleculares en 3D [8].
II. Desarrollo de herramientas y recursos que ayuden en el análisis de los datos.
III. Utilización de herramientas específicas para analizar los datos, e interpretar los resultados, dando un sentido biológico a los resultados obtenidos. Existen bases de datos especializadas en almacenar, clasificar e interpretar la información contenida en el ADN de distintos organismos. De la misma manera hay otros repositorios de información que se basan en secuencias y estructuras proteicas [8],[9]. Para cada una de estos tipos de información, se encuentra una base de datos especializada. Actualmente la base de datos del Centro Nacional de Información de Biotecnología, NCBI, (http://www.ncbi.nlm.nih.gov/), contiene secuencias de casi 260.000 especies formalmente descritas. Otras como el Instituto Europeo de bioinformática, EMBL (http://www.ebi.ac.uk/embl/), y el banco de datos de ADN de Japón, DDBJ (http://www.ddbj.nig.ac.jp/), también cubren una amplia información genómica y proteica de diversas especies. También existen bases de datos de especies únicas como el del genoma humano, GDB (http://www.gdb.org), Arabidopsis, TAIR (http://www.arabidopsis.org/) o Álamo, JGI (http://genome.jgi.doe.gov/poplar/poplar.info.html), entre otros.


¿Cuáles son las bases de datos que podemos acceder?

La bioinformática permite organizar los datos de una manera que ayuda a los investigadores a acceder a la información existente y a someter nuevas entradas de datos(secuencias específicas). En el análisis de bioinformática, existen tres categorías principales: análisis de secuencias, análisis genómicos y análisis químicos [10]. Así por ejemplo, se pueden hacer búsquedas de genes de diversos organismos y enfermedades genéticas utilizando el mapa genético de dichas especies particulares, también se puede buscar un gene en el mapa de un cromosoma, encontrar secuencias de proteínas en bases de datos y además encontrar la estructura y la representación tridimensional de las proteínas. Podemos también, encontrar información relacionada con los niveles de expresión de cada gen en un grupo celular de nuestro interés. En plantas, esta información se encuentra principalmente en especies modelo como Arabidopsis thaliana, Nicotiana tabaccum, Oryza sativa, Populus trichocarpa, entre otros.

Para el año de 2010, existían cerca de 1500 fuentes de datos disponibles al público. Estas fuentes se han clasificado de acuerdo a diferentes categorías: (1) bases de datos para secuencias (e.g. GenBank, RefSeq, CMR-Comprenhensive Microbial Resource-); (2) bases de datos de genómica funcional (e.g. ArrayExpress, FFGED –Filamentous Fungal Gene Expression Database-, GE0 –Gene Expression Omnibus-); (3) bases de datos de interacciones entre proteínas (e.g. BIND –Biomolecular Interaction Network Database-, DIP –Database of Interacting Proteins-, IntAct, MINT –Molecular Interactions Database-; (4) bases de datos de rutas metabólicas (e.g. KEGG – Kyoto Encyclopedia of Genes and genomes); (5) bases de datos de estructuras proteicas (e.g. PDB –Protein Data Bank-); (6) bases de datos de anotaciones (adición de secuencias) (e.g. GO – Gene Ontology-, NCBI Taxonomy) [1],[11]. Cada una cuenta con herramientas de búsqueda específicas. A continuación se presentan algunas de estas herramientas con énfasis en bases de datos especializados en biología de plantas (Tabla 1).



Tabla 1. Herramientas para análisis de bioinformática. Basado en EMBL (http://www.ebi.ac.uk/Tools/)

¿Dónde estamos en el uso de la bioinformática con la nueva era de secuenciación?

Con el incremento de nuevas tecnologías en biológica molecular, también se creó la necesidad de mejorar las técnicas de secuenciación, y de perfeccionar los métodos para analizar la expresión de genes, vías metabólicas y hasta de descifrar el genoma completo de un organismo. Con el desarrollo de las tecnologías de secuenciación de bajo costo y alto rendimiento (e.g. NGS –Next Generation Sequencing- [12],[13],[14],[15],[16]), se ha incrementado también la cantidad de información genómica de diversos organismos. Actualmente se cuenta con la secuenciación del genoma de diversos organismos (incluido el genoma humano), información que a su vez, presenta retos considerables en la integración y manejo de secuencias presentes en las bases de datos. Es por esto que el análisis computacional y estadístico juega y seguirá jugando un papel crucial en el avance de nuestro entendimiento de lo que podemos denominar –ómicos- (genómica, proteómica, y metabolómica entre otros). Para esto, se ha creado un directorio de enlaces de bioinformática (http://bioinformatics.ca/links_directory/), el cual ha compilado y publicado una lista de recursos de biología molecular, herramientas y bases de datos para la comunidad científica [16].

Así la bioinformática ha sido y será la herramienta de uso frecuente para el análisis de datos generados en los estudios –ómicos-, que combinados con resultados en otras disciplinas como la fisiología molecular, la ecología y la dinámica de los ecosistemas, entre otros, nos permitirá entender y hacer un mejor uso de los recursos naturales frente a ambientes cambiantes. Siguiendo con el tema de la bioinformática, esta temporada se publicaran artículos en Biogenic enfocados a describir más a fondo temas como las bases de datos, marcadores moleculares, filogenética, expresión de familias génicas, genómica funcional, ontología génica, y anotación de los genomas.

Referencias

[1] Luscombe NM, Greenbaum D, Gerstein M (2001) What is bioinformatics? An introduction and overview. Yearbook of Medial Informatics. Pp 83-99.

[2] Cohen J (2004) Bioinformatics –An introduction for computer scientist. ACM Computing Surverys 36:122-158.

[3] Brazas MC, Yim DS, Yamada JT, Ouellette BFF (2011) The 2011 bioinformatics links directory update: more resources, tools and databases and features to empower the bioinformatics community. Nuclei Acids Res 39 W3-W7.

[4] Pearson WR, Lipman DJ (1988) Improved tools for biological sequence comparison. PNAS 85:2444-2448

[5] Kent WJ (2002) BLAT-the BLAST-like alignment tool. Genome Res 4:656-664.

[6] Rehm BHA (2001) Bioinformatic tools for DNA/protein sequence analysis, functional assignment of genes and protein classification. Appl Microbiol Biotechnol 57:579-592.

[7] Westhead DR, Parish H, Twyman RM (2002) Bioinformatics. Oxford:BIOS

[8] Protein data bank (http://www.rcsb.org/pdb/home/home.do)

[9] Palagi PM, Hernandez P, Walther D, Appel RD (2006) Proteome informatics I: Bioinformatics tools for processing experimental data. Proteomics 6:5435-5444.

[10] Mount DW (2004) Bioinformatics: Sequence and genome analysis. CSHL Press. P. 692.

[11] Fox JA, Butland SL, McMillan S, Campbell G, Ouellette BFF (2005) The bioinformatics links directory: a compilation of molecular biology web serers. Nucleic Acids Res 33 W3-W24.

[12] Quail MA, Smith M, Coupland P, Otto TD, Harris SR, Connor TH, Bertoni A, Swerdlow HP, Gu Y (2012) A tale of three next generation senquencing platforms: comparison of Ion Torrent, Pacific Biosciences and Illumina MiSeq sequencers. BMC Genomics 13:341.

[13] Magi A, Benelli M, Gozzini A, Girolami F, Torricelli F, Brandi ML (2010) Bioinformatics ofr next generation sequencing data. Genes 1:294-307.

[14] Wang Z, Gerstein M, Snyder M (2009) RNA-Seq: a revolutionary tool for transcriptomics. Nat Rev Genet 10:57-63.

[15] Huang W, Marth G (1008) EagleView: a genome assembly viewer for next-generation sequencing technologies. Genome Res 9:1538-1543.

[16] Brazas M, Yim DS, Yeung W, Ouellette BFF (2012) A decade of web server updates at the bioinformatics links directorey: 2003-2012. Nucleic Acids Res 40 W3-W12.

Category: | 0 Comments

0 comments to “ ”

Escribe aquí tu opinión!