Sesgo en el uso de codones

El sesgo en el uso de codones se refiere a las diferencias en la frecuencia de ocurrencia de codones sinónimos en el ADN codificante. Un codón es una serie de tres nucleótidos (un triplete) que codifica para un residuo específico de aminoácido en una cadena polipeptídica o para la terminación de la traducción (codón de parada).

Hay en total 64 distintos codones (61 codones que codifican para aminoácidos y 3 codones de parada) pero hay solo 20 aminoácidos distintos. La sobreabundancia en el número de codones permite que varios aminoácidos sean codificados por más de un codón. Debido a esta redundancia, se dice que el código genético es degenerado. Los códigos genéticos de distintos organismos son normalmente sesgados hacia el uso de un particular codón sobre los demás codones que codifican para un mismo aminoácido, es decir, que un codón se encontrará con una frecuencia más elevada de la que esperaríamos por probabilidad. Cómo tales sesgos surgen es una área muy debatida en la evolución molecular. Tablas de uso de codones detallando el sesgo en el uso de codones para la mayoría de genomas de organismos depositados en GenBank y RefSeq se pueden encontrar en la base de datos HIVE-Codon Usage Tableo.^[1]

Está generalmente reconocido que el sesgo de codones refleja un equilibrio entre los sesgos mutacionales y la selección natural en la optimización de la traducción. Los codones óptimos en organismos de crecimiento rápido, como Escherichia coli o Saccharomyces cerevisiae (la levadura del pan), reflejan respectivamente la composición genómica en el conjunto del ARNt.^[2] Se cree que el uso de codones óptimos ayuda a conseguir una tasa de traducción más alta y con más exactitud. A raíz de estos factores, se espera que la selección en la traducción sea más fuerte en genes de expresión elevada, como es en el caso de los organismos antes mencionados.^[3]^[4] En otros organismos que no presentan altas tasas de crecimiento o tienen genomas pequeños, la optimización en el uso de codones es normalmente ausente, y las preferencias en el uso del codón están determinadas por el característico sesgo mutacional observado en ese particular genoma. Ejemplos de este son Homo sapiens (humano) y Helicobacter pylori. Organismos que presentan un nivel de optimización en el uso de codones intermedio, incluye Drosophila melanogaster (mosca de la fruta), Caenorhabditis elegans (gusano nematodo), Strongylocentrotus purpuratus (erizo de mar) o Arabidopsis thaliana.^[5] Se sabe que varias familias virales (herpesvirus, lentivirus, papillomavirus, polyomavirus, adenovirus, y parvovirus), codifican proteínas estructurales que presentan un uso del codón muy sesgado, en comparación con la célula huésped. Se ha sugerido que este sesgo de codones juega un papel en la regulación temporal de sus proteínas tardías.^[6]

La naturaleza del uso del codón-optimización del ARNt ha sido ferozmente debatida. No está claro si la utilización del codón conduce a la evolución del ARNt o es al revés. Al menos un modelo matemático se ha desarrollado donde ambos, uso del codón y la expresión del ARNt, co-evolucionan en forma de retroalimentación (es decir, codones que ya están presentes en altas frecuencias aumentan la expresión de sus correspondientes ARNts, y ARNts que se expresan normalmente en niveles altos incrementan la frecuencia de sus correspondientes codones). Sin embargo, este modelo no parece ser que tenga aún confirmación experimental. Otro problema es que la evolución de los genes del ARNt ha sido un área de investigación muy inactiva.

Se han propuesto diferentes factores relacionados con el sesgo en el uso del codón, incluyendo el nivel de expresión génica (que refleja la selección para optimizar el proceso de traducción a través de abundancia de ARNt), la composición de % G+C (que refleja la transferencia génica horizontal o el sesgo mutacional), el sesgo GC (que refleja el sesgo mutacional específico de la hebra), la conservación aminoacídica, la hidropatía en proteínas, la selección transcripcional, la estabilidad del ARN, la temperatura óptima de crecimiento, la adaptación hipersalina y el nitrógeno dietético.^[7]^[8]^[9]^[10]^[11]^[12]

A pesar de que el mecanismo de selección del sesgo de codones sigue siendo controvertido, posibles explicaciones para este sesgo se agrupan en dos categorías generales. Una explicación gira alrededor a la teoría selecionista, en el cual el sesgo de codones contribuye a la eficacia y/o exactitud de la expresión de la proteína y por tanto experimenta una selección positiva. El modelo selecionista también explica por qué los codones más frecuentes son reconocidos por las moléculas de ARNt más abundantes, así como la correlación entre codones preferidos, los niveles de ARNt y el número de copias de un gen. Aunque se ha demostrado que la tasa de incorporación aminoacídica en los codones más frecuentes ocurre en una tasa mucho más alta que en la de los codones raros, no se ha demostrado que la velocidad de la traducción se vea directamente afectada y por lo tanto el sesgo hacia los codones más frecuentes puede no ser directamente ventajoso. Sin embargo, el aumento de la velocidad de elongación durante la traducción, puede ser indirectamente ventajoso al aumentar la concentración celular de ribosomas libres y potencialmente la tasa de iniciación para el ARNs mensajeros.^[13]

La segunda explicación para el uso del codón puede ser explicada mediante el sesgo mutacional, una teoría que postula que el sesgo del codón existe debido a la no aleatoriedad en los patrones mutacionales. En otras palabras, algunos codones pueden sufrir más cambios y por lo tanto resultan en frecuencias de equilibrio más bajas, también conocidas como codones "raros". Diferentes organismos también exhiben diferentes sesgos mutacionales, y existe evidencia creciente de que el nivel de contenido GC en todo el genoma es el parámetro más significativo para explicar las diferencias de sesgo de codones entre organismos. Estudios adicionales han demostrado que los sesgos de codones pueden predecirse estadísticamente en procariotas usando solo secuencias intergénicas, argumentando en contra de la idea de fuerzas selectivas en las regiones codificantes y apoyando aún más el modelo de sesgo mutacional. Sin embargo, este modelo por sí solo no puede explicar completamente por qué los codones preferidos son reconocidos por los ARNts más abundantes.

Para reconciliar la evidencia tanto de las presiones mutacionales como de la selección, la hipótesis predominante para el sesgo del codón puede ser explicada por el modelo de equilibrio de mutación-selección-deriva. Esta hipótesis establece que la selección favorece a los codones mayoritarios sobre los minoritarios, pero estos, pueden persistir debido a la presión mutacional y a la deriva genética. También sugiere que la selección es generalmente débil, pero que la intensidad de la selección se escala en una expresión más alta y en más restricciones funcionales de las secuencias codificantes.

Debido a que la estructura secundaria del extremo 5' del ARNm influye en la eficiencia de la traducción, los cambios sinónimos en esta región del ARNm pueden resultar en cambios profundos en la expresión génica. El uso del codón en regiones de ADN no codificante puede, por lo tanto, desempeñar un papel importante en la estructura secundaria del ARN y en la posterior expresión de proteínas, que pueden sufrir presiones selectivas adicionales. En particular, una estructura secundaria fuerte en el sitio de unión del ribosoma o en el codón de inicio puede inhibir la traducción, y el plegamiento del ARNm en el extremo 5' genera una gran cantidad de variación en los niveles de proteína.^[14]

La expresión heteróloga de genes se utiliza en muchas aplicaciones biotecnológicas, incluyendo la producción de proteínas y la ingeniería metabólica. Debido a que el conjunto de ARNts varía entre diferentes organismos, la tasa de transcripción y traducción de una secuencia codificante en particular puede ser menos eficiente cuando se ubica en un contexto no nativo. Para un transgén sobreexpresado, el ARNm correspondiente constituye un gran porcentaje del ARN celular total, y la presencia de codones raros en el transcrito puede llevar al uso ineficiente y a una disminución en la actividad de los ribosomas y, en última instancia, reducir los niveles de producción heteróloga de proteínas. Sin embargo, el uso de codones optimizados para un determinado conjunto de ARNts, para sobreexpresar un gen heterólogo en un particular huésped, puede causar que se agoten los aminoácidos y alterar el equilibrio total de ARNts. Este método de ajustar los codones para que coincidan con el conjunto de ARNts abundantes del huésped, llamado optimización de codones, se ha usado tradicionalmente para la expresión heteróloga de genes. Sin embargo, nuevas estrategias para la optimización de la expresión heteróloga consideran además el contenido de nucleótidos globales, tal como el plegamiento local del ARNm, el sesgo de par de codones, la rampa de codones o las correlaciones de codones.^[15]

El sesgo especializado del codón se observa también en algunos genes endógenos, como los implicados en el agotamiento de aminoácidos. Por ejemplo, las enzimas que sintetizan aminoácidos utilizan preferentemente codones que están poco adaptados a los ARNts que abundan normalmente, pero tienen codones que están adaptados a los ARNts que se encuentran en condiciones de agotamiento. Así, el uso del codón puede introducir un nivel adicional de regulación transcripcional para una determinada expresión génica bajo unas condiciones celulares específicas.

En términos generales, para los genes con una alta expresión, las tasas de elongación durante la traducción son más rápidas en los transcritos con codones más adaptados al conjunto de ARNts, y más lentas en los transcritos con codones raros. Esta correlación entre las tasas de traducción de codones y la relación con la concentración de ARNt, proporciona una modulación adicional de las tasas de elongación de la traducción, lo que puede proporcionar varias ventajas al organismo. Específicamente, el uso de codones puede permitir la regulación global de estas tasas, y los codones raros pueden contribuir a la precisión de la traducción a expensas de la velocidad.^[16]

El plegamiento de proteínas en vivo es vectorial, de tal manera que el extremo N-terminal de una proteína sale del ribosoma y se expone al disolvente antes que sus regiones más C-terminales. Como resultado, el plegamiento co-traduccional de proteínas introduce varias restricciones espaciales y temporales en la cadena polipeptídica naciente durante su plegamiento. Debido a que las tasas de traducción del ARNm están acopladas al plegamiento de proteínas, y la adaptación del codón está ligada a la elongación de la traducción, se ha formulado la hipótesis de que la manipulación a nivel de secuencia puede ser una estrategia efectiva para regular o mejorar el plegamiento de proteínas. Varios estudios han demostrado que el pausado en la traducción como resultado de la estructura local del ARNm, ocurre para ciertas proteínas, lo cual puede ser necesario para un plegamiento correcto. Además, se ha demostrado que las mutaciones sinónimas tienen consecuencias significativas en el proceso de plegamiento de la proteína naciente e incluso pueden cambiar la especificidad de sustrato de las enzimas. Estos estudios sugieren que el uso de codones influye en la velocidad a la que los polipéptidos emergen vectorialmente del ribosoma, lo que puede afectar aún más a las vías de plegamiento de proteínas a través del espacio estructural disponible.

En el campo de la bioinformática y la biología computacional, se han propuesto y utilizado muchos métodos estadísticos para analizar el sesgo en el uso de codones.^[17] Métodos como el de "frecuencia de codones óptimos" (FOP),^[18] la "adaptación relativa del codón" (RCA),^[19] o el "índice de adaptación de codones" (IAC), ^[20] se utilizan para pronosticar los niveles de expresión génica; mientras que métodos como el "número eficaz de codones" (Nc) y la entropía de Shannon de la teoría de la información se utilizan para medir la uniformidad en el uso del codón.^[21] Los métodos estadísticos multivariados, como el análisis de correspondencia y el análisis de componentes principales, se utilizan ampliamente para analizar las variaciones en el uso de codones entre genes.^[22] Existen muchos programas informáticos para implementar los análisis estadísticos enumerados anteriormente, incluyendo CodonW, GCUA, INCA, etc. La optimización de codones tiene aplicaciones en el diseño de genes sintéticos y en las vacunas de ADN. Varios paquetes de software están disponibles en línea para este fin (consulte con los enlaces externos).