ADN no codificante

Las secuencias de ADN no codificante son componentes del ácido desoxirribonucleico de un organismo que no codifican secuencias de proteínas. Parte del ADN no codificante se transcribe en moléculas de ARN no codificantes funcionales (por ejemplo, ARN de transferencia, ARN ribosómico y ARN regulador). Otras funciones del ADN no codificante incluyen: la regulación transcripcional y traduccional de secuencias codificantes de proteínas, las regiones de unión de andamios, los orígenes de replicación de ADN, los centrómeros y los telómeros.^[1]^[2]

La cantidad de ADN no codificante varía mucho entre especies. A menudo, solo un pequeño porcentaje del genoma es responsable de codificar las proteínas, pero se muestra que un porcentaje creciente de ese ADN tiene funciones reguladoras. Cuando hay mucho ADN no codificante, una gran proporción de él parecería no tener función biológica, como se postuló en la década de 1960. Desde entonces, esta porción no funcional ha sido controvertidamente llamada "ADN basura".^[3]

El proyecto internacional Encyclopedia of DNA Elements (ENCODE) descubrió, mediante enfoques bioquímicos directos, que al menos el 80% del ADN del genoma humano tiene actividad bioquímica.^[4] Aunque esto no fue inesperado debido a décadas anteriores de investigación que descubrieron muchas regiones no codificantes funcionales,^[5] algunos científicos criticaron la conclusión por combinar la actividad bioquímica con la función biológica.^[6] ^[7] ^[8] ^[9] ^[10] Las estimaciones para la fracción biológicamente funcional del genoma humano basadas en genómica comparativa oscilan entre 8 y 15%.^[11] ^[12] ^[13] Sin embargo, otros han argumentado en contra de confiar únicamente en estimaciones de genómica comparativa debido a su alcance limitado. Se ha descubierto que el ADN no codificante, está involucrado en la actividad epigenética y en redes complejas de interacciones genéticas y se está explorando en la biología evolutiva del desarrollo.^[14]^[15]^[16]

La cantidad de ADN genómico total varía ampliamente entre los organismos, y la proporción de ADN codificante y no codificante dentro de estos genomas también varía enormemente. Por ejemplo, originalmente se sugirió que más del 98% del genoma humano no codifica secuencias de proteínas, incluidas la mayoría de las secuencias dentro de los intrones y la mayoría del ADN intergénico,^[18] mientras que el 20% de un genoma procariota típico no se codifica.^[5]

En las eucariotas, el tamaño del genoma, y por extensión la cantidad de ADN no codificante, no está correlacionado con la complejidad del organismo, una observación conocida como el enigma del valor C.^[19] Por ejemplo, se ha informado que el genoma del Polychaos dubium unicelular (anteriormente conocido como Amoeba dubia) contiene más de 200 veces la cantidad de ADN en humanos.^[20] El genoma del pez globo Takifugu rubripes tiene solo un octavo del tamaño del genoma humano, pero parece tener un número comparable de genes; aproximadamente el 90% del genoma de Takifugu es ADN no codificante.^[18] Por lo tanto, la mayor parte de la diferencia en el tamaño del genoma no se debe a la variación en la cantidad de ADN codificante, sino a una diferencia en la cantidad de ADN no codificante.

En 2013, se descubrió un nuevo "registro" para el genoma eucariota más eficiente con Utricularia gibba, que tiene solo un 3% de ADN no codificante y un 97% de ADN codificante. La planta estaba eliminando partes del ADN no codificante y esto sugirió que el ADN no codificador puede no ser tan crítico para las plantas, aunque el ADN no codificante sea útil para los humanos.^[17] Otros estudios en plantas han descubierto funciones cruciales en porciones de ADN no codificante que anteriormente se consideraba insignificante y han agregado una nueva capa a la comprensión de la regulación génica.^[21]

Los elementos reguladores de cis son secuencias que controlan la transcripción de un gen cercano. Muchos de estos elementos están involucrados en la evolución y el control del desarrollo.^[22] Los elementos cis pueden estar ubicados en regiones no traducidas 5' o 3' o dentro de intrones. Los elementos transreguladores controlan la transcripción de un gen distante.

Los promotores facilitan la transcripción de un gen particular y están típicamente aguas arriba de la región de codificación. Las secuencias potenciadoras también pueden ejercer efectos muy distantes sobre los niveles de transcripción de genes.^[23]

Los intrones son secciones no codificantes de un gen, transcritas en la secuencia precursora de ARNm, pero finalmente eliminadas por empalme de ARN durante el procesamiento para madurar ARN mensajero. Muchos intrones parecen ser elementos genéticos móviles.^[24]

Los estudios de intrones del grupo I de los protozoos de Tetrahymena indican que algunos intrones parecen ser elementos genéticos egoístas, neutrales para el huésped porque se eliminan de los exones flanqueantes durante el procesamiento del ARN y no producen un sesgo de expresión entre alelos con y sin el intrón.^[24] Algunos intrones parecen tener una función biológica significativa, posiblemente a través de la funcionalidad de la ribozima que puede regular la actividad de ARNt y ARNr, así como la expresión de genes que codifican proteínas, evidente en los huéspedes que se han vuelto dependientes de tales intrones durante largos períodos de tiempo; por ejemplo, el intrón trnL se encuentra en todas las plantas verdes y parece haber sido heredado verticalmente durante varios miles de millones de años, incluidos más de mil millones de años dentro de los cloroplastos y otros 2-3 billones de años antes en los ancestros cianobacterianos de los cloroplastos.

Los pseudogenes son secuencias de ADN, relacionadas con genes conocidos, que han perdido su capacidad de codificación de proteínas o ya no se expresan en la célula. Los pseudogenes surgen de la retrotransposición o la duplicación genómica de genes funcionales, y se convierten en "fósiles genómicos" que no funcionan debido a mutaciones que impiden la transcripción del gen, como dentro de la región promotora del gen, o alteran fatalmente la traducción del gen, como codones de parada prematura o cambios de marco.^[25] Los pseudogenes resultantes de la retrotransposición de un ARN intermedio se conocen como pseudogenes procesados; los pseudogenes que surgen de los restos genómicos de genes duplicados o residuos de genes inactivados son pseudogenes no procesados. transposiciones de genes mitocondriales que alguna vez fueron funcionales desde el citoplasma al núcleo, también conocidos como NUMT, también califican como un tipo de pseudogén común.^[26] Números ocurren en muchos taxones eucariotas.

Si bien la Ley de Dollo sugiere que la pérdida de función en los pseudogenes es probablemente permanente, los genes silenciados pueden retener la función durante varios millones de años y pueden "reactivarse" en secuencias codificantes de proteínas^[27] y se transcribe activamente un número sustancial de pseudogenes.^[25]^[28] Debido a que se presume que los pseudogenes cambian sin restricción evolutiva, pueden servir como un modelo útil del tipo y las frecuencias de diversas mutaciones genéticas espontáneas.^[29]

Los transposones y retrotransposones son elementos genéticos móviles. Las secuencias repetidas de retrotransposón, que incluyen elementos nucleares intercalados largos (LINE) y elementos nucleares intercalados cortos (SINE), representan una gran proporción de las secuencias genómicas en muchas especies. Las secuencias Alu, clasificadas como un elemento nuclear corto intercalado, son los elementos móviles más abundantes en el genoma humano. Se han encontrado algunos ejemplos de SINE que ejercen control transcripcional de algunos genes que codifican proteínas.^[30]^[31]^[32]

Las secuencias endógenas de retrovirus son el producto de la transcripción inversa de genomas de retrovirus en genomas de células germinales. La mutación dentro de estas secuencias retro-transcritas puede inactivar el genoma viral.^[33]

Más del 8% del genoma humano está formado por secuencias de retrovirus endógenas (en su mayoría descompuestas), como parte de la fracción de más del 42% que se deriva de los retrotransposones, mientras que otro 3% puede identificarse como restos de transposones de ADN. Se espera que gran parte de la mitad restante del genoma que actualmente no tiene un origen explicado haya encontrado su origen en elementos transponibles que estuvieron activos hace tanto tiempo (> 200 millones de años) que las mutaciones aleatorias los han vuelto irreconocibles.^[34] La variación del tamaño del genoma en al menos dos tipos de plantas es principalmente el resultado de secuencias de retrotransposones.^[35]^[36]

Los telómeros son regiones de ADN repetitivo al final de un cromosoma, que proporcionan protección contra el deterioro cromosómico durante la replicación del ADN. Estudios recientes han demostrado que los telómeros funcionan para ayudar en su propia estabilidad. El ARN que contiene repetición telomérica (TERRA) son transcripciones derivadas de los telómeros. Se ha demostrado que TERRA mantiene la actividad de la telomerasa y alarga los extremos de los cromosomas.^[37]

El término "ADN basura" se hizo popular en la década de 1960.^[38]^[39] Según T. Ryan Gregory, la naturaleza del ADN basura se discutió por primera vez explícitamente en 1972 por un biólogo genómico, David Comings, quien aplicó el término a todo el ADN no codificante.^[40] El término fue formalizado ese mismo año por Susumu Ohno,^[41] quien señaló que la carga mutacional de mutaciones perjudiciales colocaba un límite superior en el número de loci funcionales que podría esperarse dada una tasa de mutación típica. Ohno planteó la hipótesis de que los genomas de mamíferos no podían tener más de 30,000 loci bajo selección antes de que el "costo" de la carga mutacional causara una disminución inevitable en la aptitud física y, finalmente, la extinción. Esta predicción sigue siendo sólida, con el genoma humano que contiene aproximadamente 20,000 genes. Otra fuente de la teoría de Ohno fue la observación de que incluso las especies estrechamente relacionadas pueden tener tamaños genómicos muy diferentes (órdenes de magnitud), lo que se denominó la paradoja del valor C en 1971.^[42] Aunque la utilidad del término "ADN basura" se ha cuestionado "porque provoca una fuerte suposición a priori de la no funcionalidad total y, aunque algunos han recomendado utilizar una terminología más neutral como ADN no codificante"; a pesar de ello la denominación "ADN basura" sigue siendo una etiqueta para las porciones de una secuencia del genoma para las cuales no se ha identificado ninguna función discernible y que a través del análisis genómico comparativo no aparecen bajo ninguna restricción funcional, lo que sugiere que la secuencia en sí no ha proporcionado ninguna ventaja adaptativa. Desde finales de los años 70, se ha hecho evidente que la mayoría del ADN no codificante en genomas grandes tiene su origen en la amplificación egoísta de elementos transponibles, de los cuales W. Ford Doolittle y Carmen Sapienza en 1980 escribieron en la revista Nature:

"Cuando se puede demostrar que un ADN dado, o clase de ADN, de función fenotípica no probada ha desarrollado una estrategia (como la transposición) que asegura su supervivencia genómica, entonces no es necesaria otra explicación para su existencia."^[43]

Se puede esperar que la cantidad de ADN basura dependa de la velocidad de amplificación de estos elementos y la velocidad a la que se pierde el ADN no funcional.^[44] En el mismo número de Nature, Leslie Orgel y Francis Crick escribieron que el ADN basura tiene "poca especificidad y transmite poca o ninguna ventaja selectiva al organismo".^[45] El término aparece principalmente en la ciencia popular y de manera coloquial en publicaciones científicas, y se ha sugerido que sus connotaciones pueden haber retrasado el interés en las funciones biológicas del ADN no codificante.^[46]^{[nota 1]} Varias líneas de evidencia indican que algunas secuencias de "ADN basura" es probable que tengan actividad funcional no identificada y que el proceso de exaptación de fragmentos de ADN originalmente egoísta o no funcional ha sido común a lo largo de la evolución.^[47]

En 2012, el proyecto ENCODE, un programa de investigación apoyado por el Instituto Nacional de Investigación del Genoma Humano, informó que el 76% de las secuencias de ADN no codificantes del genoma humano fueron transcritas y que casi la mitad del genoma era de alguna manera accesible a proteínas reguladoras genéticas como factores de transcripción.^[3] Sin embargo, la sugerencia de ENCODE de que más del 80% del genoma humano es bioquímicamente funcional ha sido criticada por otros científicos,^[6] quienes sostienen que ni la accesibilidad de los segmentos del genoma a los factores de transcripción ni su transcripción garantiza que esos segmentos tienen una función bioquímica y su transcripción es selectivamente ventajosa. Además, las estimaciones mucho más bajas de la funcionalidad antes de ENCODE se basaron en estimaciones de conservación genómica en linajes de mamíferos.^[7]^[8]^[9]^[10] En respuesta, otros científicos argumentan que la transcripción generalizada y el empalme que se observa directamente en el genoma humano mediante pruebas bioquímicas es un indicador más preciso de la función genética que la conservación genómica. Debido a que las estimaciones de conservación son relativas debido a variaciones increíbles en los tamaños del genoma de especies incluso estrechamente relacionadas, es parcialmente tautológico, y estas estimaciones no se basan en pruebas directas de funcionalidad en el genoma.^[12]^[15]Las estimaciones de conservación pueden usarse para proporcionar pistas para identificar posibles elementos funcionales en el genoma, pero no limita ni limita la cantidad total de elementos funcionales que podrían existir en el genoma ya que los elementos que hacen cosas en el nivel molecular puede perderse por la genómica comparativa. Además, gran parte del ADN basura aparente está involucrado en la regulación epigenética y parece ser necesario para el desarrollo de organismos complejos.^[14]^[16]

En un artículo de 2014, los investigadores de ENCODE intentaron abordar "la cuestión de si las regiones no conservadas pero bioquímicamente activas son realmente funcionales". Señalaron que en la literatura, las partes funcionales del genoma se han identificado de manera diferente en estudios anteriores, dependiendo de los enfoques utilizados. Se han utilizado tres enfoques generales para identificar partes funcionales del genoma humano: enfoques genéticos (que se basan en cambios en el fenotipo), enfoques evolutivos (que se basan en la conservación) y enfoques bioquímicos (que se basan en pruebas bioquímicas y fueron utilizados por ENCODE). Los tres tienen limitaciones:

Las firmas bioquímicas no siempre significan automáticamente una función. Señalaron que el 70% de la cobertura de transcripción era inferior a 1 transcripción por celda. Señalaron que esta "mayor proporción de genoma con potencia de señal bioquímica reproducible pero baja y menor conservación evolutiva es difícil de analizar entre funciones específicas y ruido biológico". Además, la resolución del ensayo a menudo es mucho más amplia que los sitios funcionales subyacentes, por lo que es improbable que algunas de las secuencias reproduciblemente “bioquímicamente activas pero selectivamente neutrales” cumplan funciones críticas, especialmente aquellas con señal bioquímica de nivel inferior. A esto añadieron:

"Sin embargo, también reconocemos limitaciones sustanciales en nuestra detección actual de restricciones, dado que algunas funciones específicas de humanos son esenciales pero no conservadas y que las regiones relevantes para la enfermedad no necesitan ser selectivamente restringidas para ser funcionales".

Por otro lado, argumentaron que la fracción de 12-15% de ADN humano bajo restricción funcional, según lo estimado por una variedad de métodos evolutivos extrapolativos, aún puede ser una subestimación. Llegaron a la conclusión de que, en contraste con la evidencia evolutiva y genética, los datos bioquímicos ofrecen pistas sobre la función molecular que cumplen los elementos de ADN subyacentes y los tipos de células en los que actúan. En última instancia, los enfoques genéticos, evolutivos y bioquímicos se pueden utilizar de forma complementaria para identificar regiones que pueden ser funcionales en la biología y la enfermedad humanas. Algunos críticos han argumentado que la funcionalidad solo puede evaluarse en referencia a una hipótesis nula apropiada. En este caso, la hipótesis nula sería que estas partes del genoma no son funcionales y tienen propiedades, ya sea sobre la base de la actividad bioquímica o de conservación, que cabría esperar de dichas regiones en función de nuestra comprensión general de la evolución molecular y bioquímica Según estos críticos, hasta que se haya demostrado que una región en cuestión tiene características adicionales, más allá de lo que se espera de la hipótesis nula, debe etiquetarse provisionalmente como no funcional.^[48]

Muchas secuencias de ADN no codificantes deben tener alguna función biológica importante. Esto está indicado por estudios comparativos de genómica que informan regiones altamente conservadas de ADN no codificante, a veces en escalas de tiempo de cientos de millones de años. Esto implica que estas regiones no codificadas están bajo una fuerte presión evolutiva y una selección positiva.^[49] Por ejemplo, en los genomas de humanos y ratones, que divergieron de un ancestro común hace 65-75 millones de años, las secuencias de ADN que codifican proteínas representan solo alrededor del 20% del ADN conservado, con el 80% restante de ADN conservado representado en regiones no codificantes. El mapeo de enlaces a menudo identifica regiones cromosómicas asociadas con una enfermedad sin evidencia de variantes de codificación funcional de genes dentro de la región, lo que sugiere que las variantes genéticas causantes de enfermedad se encuentran en el ADN no codificante.^[50] La importancia de las mutaciones de ADN no codificantes en el cáncer se exploró en abril de 2013.^[51]

Los polimorfismos genéticos no codificantes desempeñan un papel en la susceptibilidad a enfermedades infecciosas, como la hepatitis C.^[52] Además, los polimorfismos genéticos no codificantes contribuyen a la susceptibilidad al sarcoma de Ewing, un cáncer óseo pediátrico agresivo.^[53]

Algunas secuencias específicas de ADN no codificante pueden ser características esenciales para la estructura cromosómica, la función del centrómero y el reconocimiento de cromosomas homólogos durante la meiosis.^[54]

Según un estudio comparativo de más de 300 genomas procariotas y más de 30 eucariotas,^[55] eucariotas parecen requerir una cantidad mínima de ADN no codificante. La cantidad puede predecirse utilizando un modelo de crecimiento para redes genéticas reguladoras, lo que implica que se requiere para fines regulatorios. En humanos, el mínimo previsto es aproximadamente el 5% del genoma total.

Más del 10% de los 32 genomas de mamíferos pueden funcionar mediante la formación de estructuras secundarias específicas del ARN.^[56] El estudio utilizó genómica comparativa para identificar mutaciones compensatorias de ADN que mantienen pares de bases de ARN, una característica distintiva de las moléculas de ARN. Más del 80% de las regiones genómicas que presentan evidencia evolutiva de la conservación de la estructura del ARN no presentan una fuerte conservación de la secuencia de ADN.

El ADN no codificante separa los genes entre sí con espacios largos, por lo que la mutación en un gen o parte de un cromosoma, por ejemplo, la eliminación o inserción, no tiene un efecto de cambio de marco en todo el cromosoma. Cuando la complejidad del genoma es relativamente alta, como en el caso del genoma humano, no solo entre diferentes genes, sino también dentro de muchos genes, hay lagunas de intrones para proteger todo el segmento de codificación y minimizar los cambios causados por la mutación. El ADN no codificante quizás sirva para disminuir la probabilidad de disrupción génica durante el cruce cromosómico.^[57]

Algunas secuencias de ADN no codificantes determinan los niveles de expresión de varios genes, tanto los que se transcriben a proteínas como los que están involucrados en la regulación génica.^[58]^[59]^[60]

Algunas secuencias de ADN no codificantes determinan dónde se unen los factores de transcripción.^[58] Un factor de transcripción es una proteína que se une a secuencias específicas de ADN no codificantes, controlando así el flujo (o transcripción) de información genética del ADN al ARNm.^[61]^[62]

Un operador es un segmento de ADN al que se une un represor. Un represor es una proteína de unión al ADN que regula la expresión de uno o más genes uniéndose al operador y bloqueando la unión de la ARN polimerasa al promotor, evitando así la transcripción de los genes. Este bloqueo de la expresión se llama represión.^[63]

Un potenciador es una región corta de ADN que se puede unir a proteínas (factores de acción trans), al igual que un conjunto de factores de transcripción, para mejorar los niveles de transcripción de genes en un grupo de genes.^[64]

Un silenciador es una región de ADN que inactiva la expresión génica cuando se une a una proteína reguladora. Funciona de manera muy similar a los potenciadores, solo difiere en la inactivación de genes.^[65]

Un promotor es una región de ADN que facilita la transcripción de un gen particular cuando un factor de transcripción se une a él. Los promotores generalmente se ubican cerca de los genes que regulan y corriente arriba de ellos.^[66]

Un aislante genético es un elemento límite que juega dos papeles distintos en la expresión génica, ya sea como un código de bloqueo del potenciador, o raramente como una barrera contra la cromatina condensada. Un aislante en una secuencia de ADN es comparable a un divisor de palabras lingüísticas, como una coma en una oración, porque el aislante indica dónde termina una secuencia potenciada o reprimida.^[67]

Las secuencias compartidas de ADN aparentemente no funcional son una importante línea de evidencia de descendencia común.^[68]

Las secuencias de pseudogén parecen acumular mutaciones más rápidamente que las secuencias de codificación debido a una pérdida de presión selectiva.^[29] Esto permite la creación de alelos mutantes que incorporan nuevas funciones que pueden ser favorecidas por la selección natural; así, los pseudogenes pueden servir como materia prima para la evolución y pueden considerarse "protogenes".^[69]

Se ha encontrado una distinción estadística entre secuencias de ADN codificantes y no codificantes. Se ha observado que los nucleótidos en secuencias de ADN no codificantes muestran correlaciones de la ley de potencia de largo alcance mientras que las secuencias codificantes no lo hacen.^[70]^[71]^[72]

La policía a veces recolecta ADN como evidencia para propósitos de identificación forense. Como se describe en Maryland v. King,^[73] una decisión de la Corte Suprema de EE. UU. de 2013:

El estándar actual para las pruebas forenses de ADN se basa en un análisis de los cromosomas ubicados dentro del núcleo de todas las células humanas. El material de ADN en los cromosomas se compone de regiones "codificantes" y "no codificantes". Las regiones de codificación se conocen como genes y contienen la información necesaria para que una célula produzca proteínas... las regiones no codificantes de proteínas... no están directamente relacionados con la producción de proteínas, [y] se han denominado ADN "basura". El adjetivo "basura" puede inducir a error al laico, ya que de hecho esta es la región del ADN que se usa con casi certeza para identificar a una persona.^[73]