Genómica funcional

La genómica funcional es un campo de la biología molecular que se propone utilizar la vasta acumulación de datos producidos por los proyectos de genómica (como los "proyectos genoma" de los distintos organismos) para describir las funciones e interacciones entre genes (y proteínas). A diferencia de la genómica y la proteómica, la genómica funcional se centra en los aspectos dinámicos de los genes, como su transcripción, la traducción, las interacciones proteína-proteína, en oposición a los aspectos estáticos de la información genómica como la secuencia del ADN o su estructura.

La genómica funcional incluye aspectos relativos a la función del mismo genoma como el análisis de mutaciónes y polimorfismos (como los SNPs), así como la medida de las actividades moleculares. Esto último comprende otras "-ómicas" como la transcriptómica (expresión génica), la proteómica (expresión de las proteínas), la fosfoproteómica y la metabolómica. En conjunto estas modalidades en el objeto de medición cuantifican los distintos procesos biológicos e impulsa el conocimiento de la función de los genes y proteínas y sus interacciones.

La genómica funcional utiliza principalmente técnicas de alto rendimiento para describir la abundancia de productos génicos como el mRNA y las proteínas. Entre estas técnicas se encuentran la hibridación in situ, la mutagénesis experimental y el uso de animales transgénicos y obtenidos por desactivación génica o knockout. Algunas plataformas tecnológicas típicas son:

Dada la gran cantidad de datos producidos por estas técnicas y la pretensión de encontrar pautas biológicas significativas en ellos, la bioinformática es crucial para este tipo de análisis. Ejemplos de técnicas de este tipo son el agrupamiento de datos o el análisis de componentes principales para un aprendizaje automático sin supervisión (detección de clases) así como redes neuronales artificiales o máquinas de soporte vectorial para aprendizaje automático supervisado (Predicción de clases, clasificación estadística).

Es posible deducir la secuencia de aminoácidos de una proteína codificada por un gen mediante la secuencia de nucleótidos de este, aunque es un proceso muy costoso. El desarrollo de métodos informáticos que identifiquen la función de un gen mediante su secuencia de ADN ha permitido abaratar y acelerar la determinación de estas funciones. Uno de estos métodos consiste en la determinación de la función mediante una búsqueda de la homología, basada en la comparación de las secuencias del ADN y la proteína de un organismo u organismos diferentes. Se comparan los genes a estudiar con genes ya estudiados y registrados en bases de datos y es posible determinar la función de esos genes mediante la comparación con genes ortólogos o genes parálogos que estén presentes en la base de datos.

Existen tres aproximaciones para el estudio de los elementos funcionales del DNA:genética, evolutiva y bioquímica. Estos tres enfoques informan de la importancia biológica de un determinado segmento genómico del DNA. Sin embargo, varían considerablemente con respecto a los elementos funcionales que predicen. Algunas de estas diferencias se originan del hecho de que la función en un contexto tanto bioquímico como genético es altamente particular de cada tipo celular y condición, mientras que en el evolutivo, la función es independiente del estado celular, pero depende por ejemplo del ambiente. También difieren en sus tasas de falsos positivos y falsos negativos, la resolución con la que se definen los elementos, y el rendimiento con el que pueden ser estudiados. Además, cada enfoque sigue siendo incompleto si se analiza de forma independiente, requiriendo tanto el desarrollo continuado de métodos, experimentales y analíticos, como un incremento del número de datos analizados (especies adicionales, ensayos, tipos de células, variantes, y fenotipos) con la finalidad de aumentar la fiabilidad de los datos obtenidos.^[1]

La aproximación genética evalúa las consecuencias que tienen las perturbaciones sobre el fenotipo. Depende de las alteraciones que se producen en la secuencia y tiene como fin establecer la relevancia biológica de los segmentos de DNA. Las mutaciones pueden ocurrir de manera natural y pueden ser identificadas mediante screening de los fenotipos generados por las variantes de las secuencias o producidos experimentalmente por métodos genéticos diana. También se pueden emplear los estudios de transfección para la identificación de los elementos reguladores y para medir su actividad. La estrategia genética no tiene un elevado rendimiento, pero su velocidad y eficacia se están mejorando con el desarrollo de nuevos métodos. Discrepa en la predicción de alguno de los elementos funcionales, cuyo fenotipo solo se desencadena en las células raras o en ambientes específicos, o cuyos efectos son demasiado sutiles para poder ser detectados en un ensayo corriente.^[1]

La aproximación evolutiva cuantifica la restricción selectiva que se ha llevado a cabo en la información genética a lo largo del tiempo. La comparación de los genomas nos permitirá determinar los elementos funcionales no codificantes que se conservan a lo largo del tiempo. Si la selección se ha llevado a cabo de una forma muy pura, encontraremos un elevado nivel de secuencias conservadas entre especies relacionadas en las cuales habrán sido rechazadas las mutaciones disruptivas.

Esta perspectiva tiene en cuenta múltiples genomas estrechamente relacionados, llegándose a comparar múltiples especies diferentes, desde la levadura hasta los mamíferos. Los métodos basados en la detección de secuencias funcionales han tenido éxito en el reconocimiento de regiones codificantes de proteínas, ARN estructurales, regiones reguladoras de genes y de otros elementos reguladores específicos. La genómica comparativa puede incorporar también información sobre los patrones mutacionales característicos de los diferentes tipos de elementos funcionales.

La aproximación evolutiva también tiene sus limitaciones. A través del alineamiento de secuencias Es muy difícil llevar a cabo de forma muy precisa la identificación de regiones conservadas debido a que la mayoría de las secuencias de unión a un factor de transcripción son cortas y está altamente degeneradas, por lo que son difíciles de identificar. Dicha estrategia permite identificar secuencias conservadas pero es menos eficaz para los elementos específicos de primates y nula para detectar elementos específicos en los humanos.

Ciertos elementos funcionales tales como los genes relacionados con la inmunidad pueden ser propensos a realizar un intercambio evolutivo muy rápido.

Estudiando la perspectiva evolutiva se llega a la conclusión de que los métodos de alineamiento de secuencias no son adecuados para reconocer sustituciones que preserven la función (por ejemplo cambios que preserven la estructura del ARN, mutaciones que no tienen efecto debido a la redundancia del código genético). Por lo tanto, la ausencia de conservación no puede ser interpretada como una falta de función.^[1]

La aproximación bioquímica tiene en cuenta la actividad molecular y se complementa con el resto de estrategias seguidas. Es específica de cada tipo celular, condición y proceso molecular. Ha servido para definir mejor los elementos no codificantes , incluyendo promotores, enhancer , silenciadores, insulators, y RNA no codificante (microRNA, piRNA, RNAs estructural y regulatorio.) Estos elementos funcionales no codificantes se asocian con las estructuras de cromatina y pueden provocar la modificación de las histonas, metilación del ADN, la accesibilidad de las DNasa, entre otros procesos.

Aunque las estrategias bioquímicas ayudan a la identificación de segmentos candidatos a ser elementos reguladores en el contexto biológico, no pueden ser interpretados como una prueba definitiva de la función por sí mismos.

Los datos bioquímicos sobre las funciones de los elementos del ADN y de los distintos tipos de células nos permiten estudiar la diferenciación y desarrollo celular, los circuitos celulares y las enfermedades humanas. Los métodos emergentes deberían mejorar la resolución con la que evalúan a los elementos candidatos. Para futuros trabajos , se deberían integrar mejor los tres métodos (genético, evolutivo y bioquímico) con el fin de definir mejor a los elementos que constituyen el genoma y profundizar en las funciones que los caracterizan.^[1]

No es fácil designar que fracción del genoma es o no funcional debido a las limitaciones que presentan las aproximaciones genéticas, evolutivas y bioquímicas. Generalmente, cada estrategia apoya a los elementos funcionales candidatos propuestos por otros métodos. Si se analizan las relaciones cuantitativas que existen entre los datos obtenidos en las diferentes aproximaciones, podremos comenzar a tener una idea más sofisticada acerca de la naturaleza, identidad y de la extensión de los elementos funcionales del genoma humano.^[1]

Una gran fracción del genoma, incluyendo las regiones no codificante, no conservadas y los elementos de repetición tienen una importante función y actividad, elevándose de forma significativa el número de posibles candidatos a ser elementos funcionales del ADN.

Recientemente se ha demostrado en el ser humano que estas regiones genómicas tienen una importante actividad bioquímica, ya que por ejemplo existen determinadas secuencias de repetición, que se pueden unir por factores de transcripción y transcribirse, o que constituyen regiones reguladoras. El 1,5% del genoma codifica proteínas y el 11% se asocia con motivos en regiones donde se une los factores de transcripción o con “huellas del DNA”. La localización de los factores de transcripción y los mapas de las regiones hipersensibles a DNasa constituyen aproximadamente el 15% del genoma, mientras que las modificaciones de histonas asociadas a un promotor o un enhacer, el 20%. Un tercio del genoma está marcado por modificaciones asociadas con la elongación transcripcional. Más de la mitad del genoma tiene al menos una histona marcada con una señal represiva. Aproximadamente, el 75% del genoma lo constituye las poliadenilaciones y ARN total, sin embargo no se conoce cuáles son importantes desde el punto de vista bioquímico y por tanto presentan una función específica.

Observando los alineamientos entre secuencias de mamíferos y con referencias tales como repeticiones ancestrales, pequeños intrones o codones degenerados, se ha estudiado que alrededor del 15% del genoma humano ha estado bajo restricción evolutiva, conservándose a lo largo del tiempo. Además la tasa de mutaciones estimada en el genoma humano es relativamente baja. Entre un 4-11% del genoma puede estar bajo restricción de linaje específico (excluyendo las regiones que codifican para proteínas). Estas cifras pueden aumentar a medida que se estudian genomas humanos adicionales. Resultados obtenidos del estudio de asociación del genoma completo podrían apoyar las funciones más generales del genoma. En la actualidad, un gran número de loci asociados permite explicar sólo una pequeña fracción de la heredabilidad, lo que sugiere que aún quedan loci por descubrir con efectos minoritarios dentro del genoma. Los estudios QTL revelan miles de variantes genéticas que influyen en la expresión de genes y en la actividad regulatoria. De estas observaciones se deduce que en las secuencias funcionales se puede incluir más proporción del genoma de la que se había pensado.^[1]

Las distintas aproximaciones se diferencian en cuanto a la proporción de elementos propuestos como funcionales. Es muy importante integrar las distintas estrategias llevadas a cabo con el fin de refinar las estimaciones y permitir una mejor comprensión de los segmentos funcionales que constituyen el genoma humano.

A priori no debemos esperar que el transcriptoma esté compuesto exclusivamente por RNA funcional. Si los transcritos no fueran errantes, se produciría un alto coste en la maquinaria de reparación necesaria para el buen funcionamiento de la RNA polimerasa y en la actividad de splicing, o para eliminar transcritos falsos. En general, las secuencias de RNA transcritas por una gran maquinaria transcripcional están menos restrigindas. Algunos RNAs como por ejemplo el lncRNA es activo a niveles bajos. Otros se expresan a niveles altos en una pequeña fracción dentro de una población celular. En la actualidad, no podemos distinguir si las transcripciones que se llevan a cabo con una baja abundancia son funcionales, especialmente para aquellos ARNs que no codifican ni para proteínas ni para regiones estructurales o reguladoras.

Las modificaciones en la cromatina pueden ser interpretadas como elementos funcionales. Existen marcas que son más abundantes que otras. Las menos abundantes están asociadas a regiones no conservadas de la heterocromatina como puede ser la metilación de la histona H3K9. Estas aproximaciones se diferencian también en la resolución de los ensayos. Por ejemplo, los ensayos bioquímicos tales como el ChIP o los ensayos de hipersensibilidad de DNAasa predicen elementos funcionales que abarcan distinto número de pares de bases. Para poder definir a los elementos funcionales del ADN es necesario cada uno de los tres enfoques, especificando las funciones que tienen a nivel molecular, celular y del organismo.^[1]

En la actualidad se conocen aproximadamente 4000 genes asociados a enfermedades, aunque se piensa que esta estimación no se corresponde con la realidad, ya que se prevé que existan mutaciones en más genes que todavía no hayan sido identificadas. Se conocen evidencias de que las distintas variantes asociadas a las secuencias reguladoras de cada gen conducen a distintos fenotipos relacionados con cada tipo de enfermedad. Las aproximaciones bioquímicas proporcionan los recursos necesarios para comprender la relevancia que tienen los elementos funcionales del gen en la enfermedad.^[1]