Subscribe RSS

Más allá de la bioinformática 

Por Mauricio Quimbaya  

¿Cómo podríamos describir el funcionamiento de una bicicleta? 

Sé que puede parecer raro que inicie un escrito de divulgación científica, el cual pretende hablar de las fronteras de la bioinformática, mencionando el funcionamiento de una bicicleta, lo cual, poco o nada se relaciona con la biología computacional. Mi objetivo, es el de guiarlos como lectores a través del último siglo de biología celular, para mostrarles que el desarrollo de las distintas herramientas computacionales que permiten la obtención, depuración e interpretación de datos biológicos, han tenido un desarrollo paralelo y en asocio a las propias técnicas moleculares con las que nos hemos aproximado a la vida celular. Sin embargo, para iniciar este viaje, es necesario aproximarnos a nuestro objeto de estudio: La célula. Y no sólo a la célula en sí, sino también, a los distintos componentes que estructuran una célula funcional. Para tal fin, utilizaré como ejemplo algo que nos sea más familiar… una bicicleta.

¿De qué manera podríamos explicar cómo funciona una bicicleta? Yo respondería a esta pregunta diciendo por ejemplo, que al impulsar con nuestras piernas los pedales, éstos hacen girar una cadena que se encuentra directamente conectada con la rueda trasera. De esta manera, el movimiento producido por la rotación de los pedales es transmitido a la rueda y esto hace que la bicicleta se mueva. Aunque esta es una descripción muy sencilla del proceso, me es útil para hacer énfasis en un punto crítico sobre el cual quiero llamar la atención. De una manera casi que intuitiva, estoy explicando el funcionamiento de la bicicleta a partir de la interconexión que existe entre sus partes. Estoy explicando el proceso de su movimiento como una consecuencia de la acción sincrónica de sus componentes. En otras palabras, podría afirmar, que si queremos saber cómo funciona una bicicleta, podríamos aproximarnos a tal conocimiento mediante el entendimiento de sus partes. ¿Qué pasará con la bicicleta si le quito la cadena?, ¿se seguirá moviendo?, y, ¿si le quitó la luz trasera? Probablemente la luz no es indispensable para que la bicicleta se mueva, pero por el contrario, sin cadena, el impulso generado por nuestras piernas no podrá ser trasmitido a la rueda trasera y como consecuencia, la bicicleta permanecerá quieta. Este simple ejercicio sirve para darnos cuenta que es posible aproximarnos al funcionamiento de la bici a partir de la observación y el análisis de sus partes.

Durante muchos años, la biología explicó el funcionamiento celular explorando las distintas dinámicas que son características de los componentes celulares. Este tipo de aproximación se conoce como mecanicista ya que el observador ve a su objeto de estudio como una máquina que puede ser desglosada y comprendida a partir de sus componentes.

La vida, como fenómeno natural es algo muy complejo de entender y por consiguiente, de explicar. Si hasta ahora, con toda la tecnología que tienen los científicos disponible, se ha logrado dar algunas explicaciones en relación a eventos y procesos característicos de la vida, es posible imaginar que algo más de cien años atrás era muy poco lo que se conocía de la célula. Por ejemplo, no conocíamos todos los organelos celulares, sabíamos que existía algo dentro de la célula que contenía el código de la herencia, pero no sabíamos qué era, ni cómo funcionaba y aún no lográbamos relacionar la estructura celular con el proceso evolutivo. La forma más simple (casi que la única forma) con la cual podíamos aproximarnos al funcionamiento celular era mediante la experimentación específica sobre alguno de sus componentes. La química y la bioquímica celular, las cuales florecieron desde principios del siglo XX, tenían un enfoque netamente mecanicista. Por ejemplo, empezamos a entender al metabolismo celular como una cascada de reacciones enzimáticas en las cuales participaban concatenadamente distintos elementos necesarios para la reacción. Desde este punto de vista, el proceso de respiración celular, por ejemplo, se daba por la acción combinada de distintas enzimas y nos podíamos preguntar entonces ¿qué pasa con el proceso si quitamos del esquema la piruvato deshidrogenasa? Al igual que con la bicicleta cuando le quitamos la cadena, tratábamos de entender el funcionamiento del sistema a partir de la comprensión de sus partes.

Aún hoy en día, gran parte del proceso experimental destinado a entender un proceso biológico, se basa en la manipulación de alguno de los componentes del sistema celular que queremos entender. Para citar un ejemplo, en el caso del estudio del cáncer, hablamos de oncogenes, que son genes específicos, moléculas puntuales, que al alterarse funcionalmente, inducen el inicio o progreso del proceso carcinogénico. Aquí nuevamente, tratamos de explica al cáncer como un estado alterado que subyace en el mal funcionamiento de un componente celular particular.

¿Y qué papel juega la bioinformática en todo esto? Se podría decir que al principio la bioinformática no tuvo cabida. Primero porque en los albores de la biología celular moderna, las ciencias computacionales aún estaban lejos de ser concebidas e igualmente, muchos años después (mediados de los 40s), cuando aparecieron los primeros ordenadores que podrían haber sido utilizados para almacenar información, el conocimiento relacionado con la biología celular y molecular estaba tan fragmentado y disperso que un buen cuaderno de laboratorio era más que suficiente para el almacenaje y análisis de los datos [1].

Pero todo cambió radicalmente y para siempre con un descubrimiento en particular.

La revolución del ADN

El 25 de Abril de 1953 salió publicado en la revista Nature [2] un artículo que, sin duda, revolucionaría para siempre la historia de la biología. James Watson y Francis Crick, apoyados en el trabajo de Rosalind Franklin, en algo más de una página describían la estructura molecular de lo que ellos mismos denominaron la molécula de la vida: El ADN. Si bien, no fueron ellos los primeros en postular al ADN como la molécula de la herencia, encargada de codificar la información que es transmitida de una generación a la siguiente, si fueron los primeros en decodificar su estructura, brindando una explicación funcional de los fenómenos hereditarios fundamentada en una estructura molecular específica. En mi opinión, ni los mismos Watson y Crick vislumbraron el potencial de su descubrimiento. 

La elucidación de la estructura del ADN no sólo fue útil para finalmente darle una representación física a la molécula de la herencia, sino que, definió per se lo que muchos han denominado el siglo de la biología. El ADN era la respuesta elusiva que finalmente tomaba forma para ubicarse en el epicentro de las ciencias biológicas.

Cientos de laboratorios se volcaron a estudiar las características, propiedades y potencialidades del ADN. En relativamente poco tiempo sus misterios fueron desenmarañados y a medida que se profundizaba en el estudio de esta molécula quedaba clara su alta complejidad.

En los años posteriores a la definición de su estructura, se descubrió que el ADN, constituía el genoma de cada organismo, de cada especie. Que dichos genomas podían ser relativamente pequeños, como en el caso de las bacterias, o enormes como sucede con algunas plantas. Se entendió que el genoma podía ser subdividido en unidades concretas denominadas genes y que estos genes eran a su vez las unidades básicas de la herencia. Con los años se ahondó en su metabolismo. Si bien, el ADN era la molécula estructural, se descubrió la relación directa entre una molécula puente, el ARN, y las proteínas las cuales finalmente son las que ejecutan los procesos celulares. En conclusión, el mundo del ADN se hizo altamente diverso.

Volvamos entonces a hacernos la pregunta central del presente escrito: ¿qué papel juega la bioinformática en todo esto? A la par que se desarrollaron técnicas celulares y moleculares específicas para explorar las distintas características y propiedades del ADN y de su metabolismo, se hizo evidente la necesidad de generar repositorios de información que permitieran almacenar y analizar la gran cantidad de información que se estaba generando de una forma eficiente. Los cuadernos de laboratorio, empezaron a quedarse cortos. Para este entonces (desde finales de los 60s hasta el inicio del nuevo milenio) las ciencias de la computación ya habían definido sus paradigmas de trabajo y se dio un profundo cambio de pensamiento con el advenimiento de los ordenadores. Distintas áreas del conocimiento entendieron su utilidad y las ciencias biológicas, no fueron la excepción.

¿Cómo almacenar los datos experimentales generados de una manera eficiente y lógica?, ¿cómo hacer un análisis de los datos, acoplando el conocimiento biológico con las estructuras de las secuencias de ADN encontradas? Dos de las preguntas claves de la época encontraron una solución eficiente, fundamentada en las ciencias de la computación. Muchos de los algoritmos generados dentro de un contexto netamente computacional, tenían una aplicación práctica en las ciencias biológicas. La arquitectura computacional utilizada para la creación de bases de datos, fue útil para generar repositorios de información en donde se depositaban los datos y secuencias de ADN encontradas. Así nacieron las primeras bases de datos que contenían información biológica, muchas de ellas absorbidas a inicios de los 80s por el GenBank, un repositorio de información genómica y proteómica creado para centralizar la información biológica producida por distintos grupos de investigación [3].

Similarmente, una gran variedad de algoritmos fueron diseñados para hacer un análisis sintáctico de distintos lenguajes de programación, así nacieron lenguajes particulares como FORTRAN [4]. Dado que la secuencia de Guaninas, Adeninas, Timinas y Citosinas, características de la estructura del ADN, pueden asumirse como un lenguaje específico, muchos de estos algoritmos para el análisis sintáctico fueron aprovechados para analizar las secuencias de ADN y de esta manera, fue posible evidenciar por ejemplo, que genes que se encuentran relacionados con un mismo proceso biológico poseen pequeños fragmentos de secuencias idénticos o muy similares que funcionan como huellas específicas que son útiles para hacer inferencias funcionales [5].

El desarrollo de las ciencias biológicas y de las ciencias computacionales fue paralelo y el acople entre ambas ciencias se solidificó con el paso del tiempo. A medida que aumenta la cantidad de información basada en secuencias biológicas, se hace más apremiante la necesidad de generar nuevas herramientas computacionales que sirvan para clasificar y analizar la información generada, sobre todo ahora, que estamos empezando a vislumbrar en todo su esplendor, la complejidad de nuestro genoma.

La maravillosa complejidad de nuestro genoma

En un escrito anterior publicado en nuestro blog (Si a las plantas no les da cáncer, ¿podrían ayudarnos a entender qué sucede en el proceso carcinogénico?) mencionaba que en el libro de la vida (nuestro genoma) eran poquísimos los párrafos que podíamos leer, esto, haciendo un símil con el porcentaje de genes que codifican para proteínas y por lo tanto que directamente están asociados a la generación de fenotipos específicos. Por ejemplo, hasta hace muy poco tiempo, sabíamos que tan sólo del 2% al 3% de nuestro genoma estaba representado por genes que se transcribían y se traducían. Una pregunta bastante lógica, estuvo en la mente de los científicos por mucho tiempo: Si tan sólo del 2% al 3% de nuestro genoma codifica para proteínas. ¿Qué función cumple el restante 98%?, ese denominado ADN basura.

Un grupo de científicos aunó esfuerzos para tratar de responder esta pregunta. La conclusión fue la siguiente. No es que la mayoría de párrafos del libro de la vida no se pudieran leer, lo que sucedía era que estaban escritos en un lenguaje ligeramente distinto y por lo tanto no podíamos interpretarlos. Es como si los párrafos representativos de los genes estuvieran escritos en español, mientras que el resto lo estuviera en francés. El código siempre estuvo ahí, teníamos que buscar la forma de interpretarlo. Aprender francés.

El denominado proyecto ENCODE (en inglés codificar), realizó una reinterpretación de nuestro genoma asignando funciones específicas a más del 80% de éste [6]. La mayoría de estas funciones son regulatorias. El proyecto, interpretó un mapa de ruta que permite entender (al menos empezar a dimensionar) los eventos de convergencia e interacciones genómicas que se tienen que dar para que una célula cumpla una función predeterminada, en un momento específico, enmarcada y delimitada en el espacio y en el tiempo [7, 8].

Gran parte de la reinterpretación genómica realizada por el proyecto ENCODE se pudo hacer gracias a la bioinformática asociada con el advenimiento de un gran número de técnicas moleculares denominadas ómicas. La genómica, la transcriptómica y la proteómica fueron tres de los cuatro pilares del proyecto. Evidentemente, la bioinformática fue el cuarto. La gran ventaja de estas técnicas es que generan respuestas biológicas a gran escala. Por ejemplo con la ejecución de un experimento bajo el enfoque funcional de las técnicas ómicas, es posible, saber cuáles son todos los genes que una célula están expresando en un momento dado o bajo un estímulo particular. De la misma manera, es posible identificar todas las proteínas que están ejecutando sus funciones para hacer posible un proceso celular, o los metabolitos que se están produciendo. Con el uso de estas técnicas globales, hemos pasado del análisis de elementos puntuales (genes, proteínas o metabolitos) que el científico consideraba como relevantes a su pregunta de investigación, a tener una visión de los cambios globales que se suceden en la célula. Pasamos del análisis genético, al análisis genómico, de un par de genes a miles de ellos, de unas cuantas proteínas a todo el proteoma celular.

La escala de estudio se incrementó notablemente y proporcionalmente aumentaron las necesidades informáticas requeridas para almacenar, organizar, interpretar y analizar los datos generados mediante la aplicación de las tecnologías ómicas. Se desarrollaron servidores poderosos, se empezaron a desarrollar técnicas de computación en paralelo, en el que múltiples máquinas están sincronizadas para maximizar la eficiencia de un proceso algorítmico que requiere de millones de cálculos.

La reinterpretación de nuestro genoma, realizada por el proyecto ENCODE, no se hubiera podido desarrollar sin el desarrollo de las técnicas holísticas que permitieron un cambio masivo en la escala de nuestras observaciones, pero tampoco se hubiera podido llevar a cabo sin el uso de supercomputadoras que maximizaran la ejecución de los algoritmos desarrollados para tal reinterpretación. 

Biología de sistemas, más allá de la bioinformática.

Retomemos el ejemplo de nuestra bicicleta. Decía al principio, que una de las aproximaciones posibles a un fenómeno de nuestro interés es a partir de sus partes. Pero ésta, no es la única, y tal vez, tampoco la más adecuada. Pensemos en un momento en una propiedad específica de nuestra bici: el movimiento. Sabemos por experiencia, que la bicicleta se mueve cuando la impulsamos, quizás montemos a diario en ella, pero, ¿podríamos explicar su movimiento a partir de las características intrínsecas de sus partes? Hagamos el siguiente ejercicio mental. Desmantelemos la bicicleta en cada uno de sus componentes. ¿Tiene alguno de sus componentes movimiento per sé?, ¿se puede mover la cadena como un componente aislado?, ¿o los pedales? La respuesta es no. El movimiento de la bicicleta sólo surge cuando cada una de las piezas (incluidos nosotros) se ensamblan coordinadamente y se integran causalmente para producir el movimiento. Esto se denomina una propiedad emergente del sistema, una propiedad que no puede ser explicada con el análisis independiente de las partes que estructuran el conjunto. El todo es más que la suma de sus partes.

La vida es una propiedad emergente del sistema celular. No podemos explicar la vida mediante el análisis independiente de sus componentes. Los genes o genomas no son unidades vivas, ni las proteínas, ni los metabolitos producto de alguna reacción bioquímica, ni tampoco el núcleo celular o las mitocondrias. Todos estos elementos son esenciales para el funcionamiento celular, pero, sólo cuando cada uno de estos componentes interactúa entre si de una manera orquestada, organizada en el espacio y controlada en el tiempo surgen los procesos y funciones característicos de la vida.

A esta forma holística de aproximación al fenómeno de la vida, se le conoce como biología de sistemas y aunque tuvo sus orígenes a comienzos de la década de los 50s, propuesta por Ludwig von Bertalanffy, tan sólo hasta ahora (los últimos 10 años) ha tenido una aplicación directa a los sistemas biológicos.

Fue sólo con el desarrollo de las tecnologías ómicas que los científicos pudieron acceder a todo el arsenal molecular de una forma global y cuantificable. No podemos empezar a analizar las propiedades emergentes de un sistema sin conocer por lo menos, la mayoría de sus componentes y este paso se dio gracias al advenimiento de la genómica, la transcriptómica, la proteómica, la metabolómica, la interactómica, entre otras.

Para entender a la célula cómo un sistema dinámico, constantemente cambiante, es fundamental integrar toda la información derivada del análisis de sus componentes en modelos convergentes que traten de acceder a sus propiedades emergentes y, de esta manera, obtener información nueva que sólo puede lograrse desde un análisis holístico del sistema. En este punto, la bioinformática sigue siendo una herramienta útil, pero se queda corta. Hay que imaginar los  cientos de millones de datos que pueden ser generados con un unos pocos experimento de RNA-Seq, por ejemplo, para dimensionar las magnitudes épicas de una empresa que pretenda integrar distintos tipos de datos, provenientes de distintas tecnologías ómicas en aras de lograr una respuesta sistémica a un fenómeno de interés. Para la integración coherente y biológicamente pertinente de esta basta cantidad de información, no solamente es necesario equipos de cómputo con capacidades gigantescas de cálculo, sino que, es necesario recurrir a modelos matemáticos avanzados que permitan maximizar el proceso de procesamiento y análisis de los datos.

En este punto llegamos a algo que se conoce como el modelamiento de sistemas biológicos, en donde ciencias biológicas, matemática aplicada y  ciencias computacionales convergen para tratar de hacer una descripción detallada del sistema, que permita no sólo describir su funcionamiento, sino también, que permita hacer predicciones de su comportamiento en circunstancias específicas.

Tomemos por ejemplo el cáncer. El objetivo final sería integrar todos los datos derivados de distintas tecnologías ómicas en los que se compare una célula normal con una célula cancerosa, para desarrollar un modelo matemático-computacional. Dicho modelo debe permitir saber el momento exacto en el cual un cúmulo de mutaciones en genes específicos converge para alterar el metabolismo celular iniciando un proceso de de-diferenciación celular. Si se logra mapear con exactitud ese instante y caracterizar dichos cambios, sería posible seleccionar las moléculas claves que inclinan el sistema hacia la malignidad y de esta manera comprobar experimentalmente en un modelo celular lo que sucedería al manipular dichas moléculas claves [9, 10].

Esta nueva era basada en la integración de datos para dar respuestas sistémicas a fenómenos celulares hasta ahora comienza, sin embargo, cada día se dan pasos agigantados y me atrevería a decir que este y tal vez el siguiente siglo continuarán siendo el siglo de la biología. 

Para terminar quisiera recalcar el desarrollo paralelo que desde el siglo pasado han tenido las ciencias biológicas y las ciencias computacionales y me gustaría hacer énfasis en la importancia que han tenido estas últimas en el análisis e interpretación de distintos datos biológicos. En mi concepto, las respuestas que intentará buscar la biología en los próximos años sólo serán alcanzables mediante un lazo indisoluble ente biología, computación y matemáticas.
 

Referencias

[1] Capra, F. 1996. La trama de la vida. Editorial Anagrama S.A. Barcelona.
[2] Watson, J & Crick, F. 1953. A structure for deoxyribose nucleic acid. Nature 171, 737–738.
[3] Benson, D. Lipman, D & Ostell, J. 1993. GenBank. Nucleic Acid Research. 21. 2963-2965.
[4] Sammet, J. 1972. Programming Languages: History and Future. Communications of the ACM. 15. 601-610.
[5] Das, M & Kwok-Day, H. 2007. A survey of DNA motif finding algorithms. 8. 1-13.
[6] The ENCODE project consortium. 2012. An integrated encyclopedia of DNA elements in the human genome. Nature. 489. 57-74.
[7] Frazer, K. 2012. Decoding the human genome. Genome Research. 22. 1599-1601.
[8] Chanock, S. 2012. Toward mapping the biology of the genome. Genome Research. 22. 1612-1615.
[9] Prasasya, R. Tian, D & Kreeger, P. 2011. Analysis of cancer signaling networks by systems biology to develop therapies. Seminars in cancer biology. 21. 200-206.
[10] Laubenbacher, R. et al. 2009. A systems biology view of cancer. Biochimica et Biophysica Acta. 1796. 129-139.



0 comments to “Más allá de la bioinformática”

Escribe aquí tu opinión!