Más allá de la bioinformática
Por Mauricio Quimbaya
¿Cómo podríamos describir el funcionamiento de una bicicleta?
Sé que puede parecer raro que inicie un escrito de
divulgación científica, el cual pretende hablar de las fronteras de la
bioinformática, mencionando el funcionamiento de una bicicleta, lo cual, poco o
nada se relaciona con la biología computacional. Mi objetivo, es el de guiarlos
como lectores a través del último siglo de biología celular, para mostrarles
que el desarrollo de las distintas herramientas computacionales que permiten la
obtención, depuración e interpretación de datos biológicos, han tenido un
desarrollo paralelo y en asocio a las propias técnicas moleculares con las que
nos hemos aproximado a la vida celular. Sin embargo, para iniciar este viaje,
es necesario aproximarnos a nuestro objeto de estudio: La célula. Y no sólo a
la célula en sí, sino también, a los distintos componentes que estructuran una
célula funcional. Para tal fin, utilizaré como ejemplo algo que nos sea más familiar…
una bicicleta.
¿De qué manera podríamos explicar cómo funciona una
bicicleta? Yo respondería a esta pregunta diciendo por ejemplo, que al impulsar
con nuestras piernas los pedales, éstos hacen girar una cadena que se encuentra
directamente conectada con la rueda trasera. De esta manera, el movimiento
producido por la rotación de los pedales es transmitido a la rueda y esto hace
que la bicicleta se mueva. Aunque esta es una descripción muy sencilla del
proceso, me es útil para hacer énfasis en un punto crítico sobre el cual quiero
llamar la atención. De una manera casi que intuitiva, estoy explicando el
funcionamiento de la bicicleta a partir de la interconexión que existe entre
sus partes. Estoy explicando el proceso de su movimiento como una consecuencia
de la acción sincrónica de sus componentes. En otras palabras, podría afirmar,
que si queremos saber cómo funciona una bicicleta, podríamos aproximarnos a tal
conocimiento mediante el entendimiento de sus partes. ¿Qué pasará con la
bicicleta si le quito la cadena?, ¿se seguirá moviendo?, y, ¿si le quitó la luz
trasera? Probablemente la luz no es indispensable para que la bicicleta se
mueva, pero por el contrario, sin cadena, el impulso generado por nuestras
piernas no podrá ser trasmitido a la rueda trasera y como consecuencia, la
bicicleta permanecerá quieta. Este simple ejercicio sirve para darnos cuenta
que es posible aproximarnos al funcionamiento de la bici a partir de la
observación y el análisis de sus partes.
Durante muchos años, la biología explicó el funcionamiento
celular explorando las distintas dinámicas que son características de los
componentes celulares. Este tipo de aproximación se conoce como mecanicista ya
que el observador ve a su objeto de estudio como una máquina que puede ser
desglosada y comprendida a partir de sus componentes.
La vida, como fenómeno natural es algo muy complejo de
entender y por consiguiente, de explicar. Si hasta ahora, con toda la
tecnología que tienen los científicos disponible, se ha logrado dar algunas
explicaciones en relación a eventos y procesos característicos de la vida, es
posible imaginar que algo más de cien años atrás era muy poco lo que se conocía
de la célula. Por ejemplo, no conocíamos todos los organelos celulares,
sabíamos que existía algo dentro de la célula que contenía el código de la
herencia, pero no sabíamos qué era, ni cómo funcionaba y aún no lográbamos
relacionar la estructura celular con el proceso evolutivo. La forma más simple
(casi que la única forma) con la cual podíamos aproximarnos al funcionamiento
celular era mediante la experimentación específica sobre alguno de sus componentes.
La química y la bioquímica celular, las cuales florecieron desde principios del
siglo XX, tenían un enfoque netamente mecanicista. Por ejemplo, empezamos a
entender al metabolismo celular como una cascada de reacciones enzimáticas en
las cuales participaban concatenadamente distintos elementos necesarios para la
reacción. Desde este punto de vista, el proceso de respiración celular, por
ejemplo, se daba por la acción combinada de distintas enzimas y nos podíamos
preguntar entonces ¿qué pasa con el proceso si quitamos del esquema la piruvato deshidrogenasa? Al igual que
con la bicicleta cuando le quitamos la cadena, tratábamos de entender el
funcionamiento del sistema a partir de la comprensión de sus partes.
Aún hoy en día, gran parte del proceso experimental destinado
a entender un proceso biológico, se basa en la manipulación de alguno de los
componentes del sistema celular que queremos entender. Para citar un ejemplo,
en el caso del estudio del cáncer, hablamos de oncogenes, que son genes específicos,
moléculas puntuales, que al alterarse funcionalmente, inducen el inicio o
progreso del proceso carcinogénico. Aquí nuevamente, tratamos de explica al cáncer
como un estado alterado que subyace en el mal funcionamiento de un componente
celular particular.
¿Y qué papel juega la bioinformática en todo esto? Se podría
decir que al principio la bioinformática no tuvo cabida. Primero porque en los
albores de la biología celular moderna, las ciencias computacionales aún
estaban lejos de ser concebidas e igualmente, muchos años después (mediados de
los 40s), cuando aparecieron los primeros ordenadores que podrían haber sido
utilizados para almacenar información, el conocimiento relacionado con la
biología celular y molecular estaba tan fragmentado y disperso que un buen
cuaderno de laboratorio era más que suficiente para el almacenaje y análisis de
los datos [1].
Pero todo cambió radicalmente y para siempre con un
descubrimiento en particular.
La revolución del ADN
El 25 de Abril de 1953 salió publicado en la revista Nature [2] un artículo que, sin
duda, revolucionaría para siempre la historia de la biología. James Watson y
Francis Crick, apoyados en el trabajo de Rosalind Franklin, en algo más de una
página describían la estructura molecular de lo que ellos mismos denominaron la
molécula de la vida: El ADN. Si bien, no fueron ellos los primeros en postular
al ADN como la molécula de la herencia, encargada de codificar la información
que es transmitida de una generación a la siguiente, si fueron los primeros en
decodificar su estructura, brindando una explicación funcional de los fenómenos
hereditarios fundamentada en una estructura molecular específica. En mi
opinión, ni los mismos Watson y Crick vislumbraron el potencial de su
descubrimiento.
La elucidación de la estructura del ADN no sólo fue útil para
finalmente darle una representación física a la molécula de la herencia, sino
que, definió per se lo que muchos han
denominado el siglo de la biología. El ADN era la respuesta elusiva que
finalmente tomaba forma para ubicarse en el epicentro de las ciencias
biológicas.
Cientos de laboratorios se volcaron a estudiar las
características, propiedades y potencialidades del ADN. En relativamente poco
tiempo sus misterios fueron desenmarañados y a medida que se profundizaba en el
estudio de esta molécula quedaba clara su alta complejidad.
En los años posteriores a la definición de su estructura, se
descubrió que el ADN, constituía el genoma de cada organismo, de cada especie.
Que dichos genomas podían ser relativamente pequeños, como en el caso de las
bacterias, o enormes como sucede con algunas plantas. Se entendió que el genoma
podía ser subdividido en unidades concretas denominadas genes y que estos genes
eran a su vez las unidades básicas de la herencia. Con los años se ahondó en su
metabolismo. Si bien, el ADN era la molécula estructural, se descubrió la
relación directa entre una molécula puente, el ARN, y las proteínas las cuales
finalmente son las que ejecutan los procesos celulares. En conclusión, el mundo
del ADN se hizo altamente diverso.
Volvamos entonces a hacernos la pregunta central del presente
escrito: ¿qué papel juega la bioinformática en todo esto? A la par que se
desarrollaron técnicas celulares y moleculares específicas para explorar las
distintas características y propiedades del ADN y de su metabolismo, se hizo
evidente la necesidad de generar repositorios de información que permitieran
almacenar y analizar la gran cantidad de información que se estaba generando de
una forma eficiente. Los cuadernos de laboratorio, empezaron a quedarse cortos.
Para este entonces (desde finales de los 60s hasta el inicio del nuevo milenio)
las ciencias de la computación ya habían definido sus paradigmas de trabajo y
se dio un profundo cambio de pensamiento con el advenimiento de los
ordenadores. Distintas áreas del conocimiento entendieron su utilidad y las
ciencias biológicas, no fueron la excepción.
¿Cómo almacenar los datos experimentales generados de una
manera eficiente y lógica?, ¿cómo hacer un análisis de los datos, acoplando el
conocimiento biológico con las estructuras de las secuencias de ADN
encontradas? Dos de las preguntas claves de la época encontraron una solución
eficiente, fundamentada en las ciencias de la computación. Muchos de los algoritmos generados dentro de un contexto
netamente computacional, tenían una aplicación práctica en las ciencias
biológicas. La arquitectura computacional utilizada para la creación de bases
de datos, fue útil para generar repositorios de información en donde se depositaban
los datos y secuencias de ADN encontradas. Así nacieron las primeras bases de
datos que contenían información biológica, muchas de ellas absorbidas a inicios
de los 80s por el GenBank, un
repositorio de información genómica y proteómica creado para centralizar la
información biológica producida por distintos grupos de investigación [3].
Similarmente, una gran variedad de algoritmos fueron
diseñados para hacer un análisis sintáctico de distintos lenguajes de
programación, así nacieron lenguajes particulares como FORTRAN [4].
Dado que la secuencia de Guaninas, Adeninas, Timinas y Citosinas,
características de la estructura del ADN, pueden asumirse como un lenguaje
específico, muchos de estos algoritmos para el análisis sintáctico fueron
aprovechados para analizar las secuencias de ADN y de esta manera, fue posible
evidenciar por ejemplo, que genes que se encuentran relacionados con un mismo
proceso biológico poseen pequeños fragmentos de secuencias idénticos o muy
similares que funcionan como huellas específicas que son útiles para hacer
inferencias funcionales [5].
El desarrollo de las ciencias biológicas y de las ciencias
computacionales fue paralelo y el acople entre ambas ciencias se solidificó con
el paso del tiempo. A medida que aumenta la cantidad de información basada en
secuencias biológicas, se hace más apremiante la necesidad de generar nuevas
herramientas computacionales que sirvan para clasificar y analizar la
información generada, sobre todo ahora, que estamos empezando a vislumbrar en
todo su esplendor, la complejidad de nuestro genoma.
La maravillosa
complejidad de nuestro genoma
En un escrito anterior publicado en nuestro blog (Si
a las plantas no les da cáncer, ¿podrían ayudarnos a entender qué sucede en el
proceso carcinogénico?)
mencionaba que en el libro de la vida (nuestro genoma) eran poquísimos los
párrafos que podíamos leer, esto, haciendo un símil con el porcentaje de genes
que codifican para proteínas y por lo tanto que directamente están asociados a
la generación de fenotipos específicos. Por ejemplo, hasta hace muy poco
tiempo, sabíamos que tan sólo del 2% al 3% de nuestro genoma estaba
representado por genes que se transcribían y se traducían. Una pregunta
bastante lógica, estuvo en la mente de los científicos por mucho tiempo: Si tan
sólo del 2% al 3% de nuestro genoma codifica para proteínas. ¿Qué función
cumple el restante 98%?, ese denominado ADN basura.
Un grupo de científicos aunó esfuerzos para tratar de
responder esta pregunta. La conclusión fue la siguiente. No es que la mayoría
de párrafos del libro de la vida no se pudieran leer, lo que sucedía era que
estaban escritos en un lenguaje ligeramente distinto y por lo tanto no podíamos
interpretarlos. Es como si los párrafos representativos de los genes estuvieran
escritos en español, mientras que el resto lo estuviera en francés. El código
siempre estuvo ahí, teníamos que buscar la forma de interpretarlo. Aprender
francés.
El denominado proyecto ENCODE (en inglés codificar), realizó
una reinterpretación de nuestro genoma asignando funciones específicas a más
del 80% de éste [6]. La mayoría de estas funciones son regulatorias. El
proyecto, interpretó un mapa de ruta que permite entender (al menos empezar a
dimensionar) los eventos de convergencia e interacciones genómicas que se
tienen que dar para que una célula cumpla una función predeterminada, en un
momento específico, enmarcada y delimitada en el espacio y en el tiempo [7, 8].
Gran parte de la reinterpretación genómica realizada por el
proyecto ENCODE se pudo hacer gracias a la bioinformática asociada con el advenimiento
de un gran número de técnicas moleculares denominadas ómicas. La genómica, la transcriptómica y la proteómica fueron tres
de los cuatro pilares del proyecto. Evidentemente, la bioinformática fue el
cuarto. La gran ventaja de estas técnicas es que generan respuestas biológicas
a gran escala. Por ejemplo con la ejecución de un experimento bajo el enfoque
funcional de las técnicas ómicas, es
posible, saber cuáles son todos los genes que una célula están expresando en un
momento dado o bajo un estímulo particular. De la misma manera, es posible
identificar todas las proteínas que están ejecutando sus funciones para hacer
posible un proceso celular, o los metabolitos que se están produciendo. Con el
uso de estas técnicas globales, hemos pasado del análisis de elementos
puntuales (genes, proteínas o metabolitos) que el científico consideraba como
relevantes a su pregunta de investigación, a tener una visión de los cambios
globales que se suceden en la célula. Pasamos del análisis genético, al
análisis genómico, de un par de genes a miles de ellos, de unas cuantas
proteínas a todo el proteoma celular.
La escala de estudio se incrementó notablemente y
proporcionalmente aumentaron las necesidades informáticas requeridas para
almacenar, organizar, interpretar y analizar los datos generados mediante la
aplicación de las tecnologías ómicas.
Se desarrollaron servidores poderosos, se empezaron a desarrollar técnicas de
computación en paralelo, en el que múltiples máquinas están sincronizadas para
maximizar la eficiencia de un proceso algorítmico que requiere de millones de
cálculos.
La reinterpretación de nuestro genoma, realizada por el
proyecto ENCODE, no se hubiera podido desarrollar sin el desarrollo de las
técnicas holísticas que permitieron un cambio masivo en la escala de nuestras
observaciones, pero tampoco se hubiera podido llevar a cabo sin el uso de
supercomputadoras que maximizaran la ejecución de los algoritmos desarrollados
para tal reinterpretación.
Biología de sistemas, más allá de la
bioinformática.
Retomemos el ejemplo de nuestra bicicleta. Decía al
principio, que una de las aproximaciones posibles a un fenómeno de nuestro
interés es a partir de sus partes. Pero ésta, no es la única, y tal vez,
tampoco la más adecuada. Pensemos en un momento en una propiedad específica de
nuestra bici: el movimiento. Sabemos por experiencia, que la bicicleta se mueve
cuando la impulsamos, quizás montemos a diario en ella, pero, ¿podríamos
explicar su movimiento a partir de las características intrínsecas de sus
partes? Hagamos el siguiente ejercicio mental. Desmantelemos la bicicleta en
cada uno de sus componentes. ¿Tiene alguno de sus componentes movimiento per
sé?, ¿se puede mover la cadena como un componente aislado?, ¿o los pedales? La
respuesta es no. El movimiento de la bicicleta sólo surge cuando cada una de
las piezas (incluidos nosotros) se ensamblan coordinadamente y se integran
causalmente para producir el movimiento. Esto se denomina una propiedad
emergente del sistema, una propiedad que no puede ser explicada con el análisis
independiente de las partes que estructuran el conjunto. El todo es más que la
suma de sus partes.
La vida es una propiedad emergente del sistema celular. No
podemos explicar la vida mediante el análisis independiente de sus componentes.
Los genes o genomas no son unidades vivas, ni las proteínas, ni los metabolitos
producto de alguna reacción bioquímica, ni tampoco el núcleo celular o las
mitocondrias. Todos estos elementos son esenciales para el funcionamiento
celular, pero, sólo cuando cada uno de estos componentes interactúa entre si de
una manera orquestada, organizada en el espacio y controlada en el tiempo
surgen los procesos y funciones característicos de la vida.
A esta forma holística de aproximación al fenómeno de la
vida, se le conoce como biología de sistemas y aunque tuvo sus orígenes a
comienzos de la década de los 50s, propuesta por Ludwig von Bertalanffy, tan
sólo hasta ahora (los últimos 10 años) ha tenido una aplicación directa a los
sistemas biológicos.
Fue sólo con el desarrollo de las tecnologías ómicas que los científicos pudieron
acceder a todo el arsenal molecular de una forma global y cuantificable. No
podemos empezar a analizar las propiedades emergentes de un sistema sin conocer
por lo menos, la mayoría de sus componentes y este paso se dio gracias al
advenimiento de la genómica, la transcriptómica, la proteómica, la metabolómica,
la interactómica, entre otras.
Para entender a la célula cómo un sistema dinámico,
constantemente cambiante, es fundamental integrar toda la información derivada
del análisis de sus componentes en modelos convergentes que traten de acceder a
sus propiedades emergentes y, de esta manera, obtener información nueva que
sólo puede lograrse desde un análisis holístico del sistema. En este punto, la
bioinformática sigue siendo una herramienta útil, pero se queda corta. Hay que
imaginar los cientos de millones de
datos que pueden ser generados con un unos pocos experimento de RNA-Seq, por ejemplo, para dimensionar
las magnitudes épicas de una empresa que pretenda integrar distintos tipos de
datos, provenientes de distintas tecnologías ómicas en aras de lograr una respuesta sistémica a un fenómeno de
interés. Para la integración coherente y biológicamente pertinente de esta
basta cantidad de información, no solamente es necesario equipos de cómputo con
capacidades gigantescas de cálculo, sino que, es necesario recurrir a modelos
matemáticos avanzados que permitan maximizar el proceso de procesamiento y
análisis de los datos.
En este punto llegamos a algo que se conoce como el
modelamiento de sistemas biológicos, en donde ciencias biológicas, matemática
aplicada y ciencias computacionales
convergen para tratar de hacer una descripción detallada del sistema, que
permita no sólo describir su funcionamiento, sino también, que permita hacer
predicciones de su comportamiento en circunstancias específicas.
Tomemos por ejemplo el cáncer. El objetivo final sería
integrar todos los datos derivados de distintas tecnologías ómicas en los que se compare una célula
normal con una célula cancerosa, para desarrollar un modelo
matemático-computacional. Dicho modelo debe permitir saber el momento exacto en
el cual un cúmulo de mutaciones en genes específicos converge para alterar el
metabolismo celular iniciando un proceso de de-diferenciación celular. Si se
logra mapear con exactitud ese instante y caracterizar dichos cambios, sería
posible seleccionar las moléculas claves que inclinan el sistema hacia la
malignidad y de esta manera comprobar experimentalmente en un modelo celular lo
que sucedería al manipular dichas moléculas claves [9, 10].
Esta nueva era basada en la integración de datos para dar
respuestas sistémicas a fenómenos celulares hasta ahora comienza, sin embargo,
cada día se dan pasos agigantados y me atrevería a decir que este y tal vez el
siguiente siglo continuarán siendo el siglo de la biología.
Para terminar quisiera recalcar el desarrollo paralelo que
desde el siglo pasado han tenido las ciencias biológicas y las ciencias
computacionales y me gustaría hacer énfasis en la importancia que han tenido
estas últimas en el análisis e interpretación de distintos datos biológicos. En
mi concepto, las respuestas que intentará buscar la biología en los próximos
años sólo serán alcanzables mediante un lazo indisoluble ente biología,
computación y matemáticas.
Referencias
[1] Capra, F. 1996. La trama de la vida. Editorial Anagrama
S.A. Barcelona.
[2] Watson, J & Crick, F. 1953. A structure for
deoxyribose nucleic acid. Nature 171, 737–738.
[3] Benson, D.
Lipman, D & Ostell, J. 1993. GenBank. Nucleic Acid Research. 21. 2963-2965.
[4] Sammet,
J. 1972. Programming Languages: History and Future. Communications of the ACM. 15. 601-610.
[5] Das, M
& Kwok-Day, H. 2007. A survey of DNA motif finding algorithms. 8. 1-13.
[6] The
ENCODE project consortium. 2012. An integrated encyclopedia of DNA elements in
the human genome. Nature. 489.
57-74.
[7] Frazer,
K. 2012. Decoding the human genome. Genome Research. 22. 1599-1601.
[8] Chanock,
S. 2012. Toward mapping the biology of the genome. Genome Research. 22. 1612-1615.
[9] Prasasya,
R. Tian, D & Kreeger, P. 2011. Analysis of cancer signaling networks by
systems biology to develop therapies. Seminars in cancer biology. 21. 200-206.
[10]
Laubenbacher, R. et al. 2009. A systems biology view of cancer. Biochimica et
Biophysica Acta. 1796. 129-139.
Category:
algoritmo,
bioinformática,
biología de sistemas,
integración de datos,
modelamiento,
sistema
| 0 Comments
0 comments to “Más allá de la bioinformática”