AlphaFold

AlphaFold es un programa de inteligencia artificial (IA) desarrollado por DeepMind de Alphabets/Google que realiza predicciones de la estructura de las proteínas^[1] mediante el sistema de aprendizaje profundo.^[2] La primera versión de AlphaFold, conocida como AlphaFold 1, obtuvo el primer lugar en la clasificación general de la 13.ª edición de la competición CASP (Critical Assessment of Techniques for Protein Structure Prediction, 'evaluación crítica de técnicas para la predicción de la estructura de proteínas') en diciembre de 2018. El programa se destacó particularmente en las predicciones de estructuras para las que no existían modelos previos,^{[n. 1]} consideradas por los organizadores de la competición como las más difíciles.

AlphaFold 2, versión desarrollada en 2020, volvió a ganar la competición CASP en noviembre de 2020,^[3] con predicciones mucho más exactas que las de cualquier otro programa.^[2] En alrededor de dos tercios de las proteínas, AlphaFold 2 obtuvo una puntuación superior a 90 en la prueba de distancia global (GDT), que compara las predicciones de los programas con las estructuras determinadas experimentalmente; una puntuación de 100 denota una coincidencia completa.^[2]^[4]

Los resultados de AlphaFold 2 en CASP han sido calificados como «asombrosos»^[5] y «transformadores».^[6] Aunque la exactitud de las predicciones no es lo suficientemente alta en un tercio de los casos y el programa no revela ninguna información sobre el mecanismo del plegamiento de las proteínas,^[7]^[8] el logro técnico ha recibido un reconocimiento generalizado.

El 15 de julio de 2021, Nature publicó un artículo sobre AlphaFold2 junto con software de código abierto y una base de datos de búsqueda de proteomas de varias especies.^[9]^[10]^[11]

Las proteínas están formadas por cadenas de aminoácidos que se doblan y acoplan entre sí espontáneamente, en un proceso llamado plegamiento de proteínas, para formar una estructura tridimensional (3-D) relacionada con la función biológica de la proteína. Uno de los desafíos de la biología molecular, conocido como el «problema del plegamiento de las proteínas» consiste en entender cómo la secuencia de aminoácidos determina la estructura tridimensional.^[12] Para solucionar este problema, es necesario comprender la termodinámica de las fuerzas interatómicas que resultan en una estructura estable y el mecanismo por el que las proteínas alcanzan su configuración final con extrema rapidez.^[13]

Las estructuras de las proteínas se determinan habitualmente de forma experimental mediante métodos como la cristalografía de rayos X, la microscopía crioelectrónica y la resonancia magnética nuclear, técnicas que son costosas y pueden requerir mucho tiempo.^[12] Durante los últimos sesenta años se han identificado las estructuras de unas 170 000 proteínas, una mera fracción de las proteínas existentes en todas las formas de vida que se calculan en más de doscientos millones.^[4] El poder predecir la estructura de las proteínas sin más información que la secuencia de aminoácidos sería de gran ayuda para avanzar en la investigación científica. Sin embargo, la paradoja de Levinthal muestra que, si bien una proteína se puede plegar en milisegundos, el tiempo que lleva calcular todas las estructuras posibles al azar para determinar la estructura es más largo que la edad del universo conocido.^[12]

A lo largo de los años, los investigadores han aplicado numerosos métodos computacionales al problema de la predicción de la estructura de las proteínas, pero la precisión de los modelos generados jamás se había acercado a la de las estructuras determinadas por técnicas experimentales, excepto para proteínas pequeñas y simples. Hasta la entrada en escena de AlphaFold con su técnica de inteligencia artificial (IA) basada en el aprendizaje profundo,^[12] los mejores algoritmos usados en CASP, solo producían estructuras comparables a las determinadas experimentalmente en un 40 % de los casos más difíciles.^[4]

DeepMind ha entrenado el programa AlphaFold con más de 170 000 proteínas de los depósitos públicos de secuencias y estructuras de proteínas. El programa utiliza una forma de red de atención, una técnica de aprendizaje profundo que identifica partes de un problema mayor y luego las junta para obtener la solución general.^[2] El entrenamiento del algoritmo empleó entre cien y doscientas unidades de procesamiento gráfico (GPU),^[2] y tomó «algunas semanas». El programa necesita unos días para predecir una estructura.^[14]

AlphaFold 1 se basó en el trabajo de varios equipos, que durante la década de 2010 examinaron las secuencias de ADN de proteínas relacionadas en organismos diferentes —la mayoría sin una estructura tridimensional conocida— para tratar de encontrar cambios correlacionados en la lista de aminoácidos, es decir, casos en que mutaciones en dos o más lugares coincidan en proteínas homólogas de distintas especies. Los investigadores dedujeron que tales correlaciones pueden deberse a que los aminoácidos mutados formen contactos en la proteína, aunque no ocupen lugares contiguos en la secuencia de ADN, lo que permite elaborar un mapa de posibles contactos en la estructura. AlphaFold 1 se basó en esta idea para calcular una distribución de probabilidad de las distancias entre los aminoácidos y convertir el mapa de contactos en un mapa de distancias probables y predecir la estructura mediante la optimización de un potencial estadístico basado en esta distribución de probabilidad.^[15]

El equipo de DeepMind descubrió que su método anterior tenía la tendencia de sobrevalorar las interacciones entre los aminoácidos cercanos en la secuencia en comparación con los más alejados. Como resultado, AlphaFold 1 predecía modelos en los que la estructura secundaria (hélices alfa y hojas beta) predominaba excesivamente.^[16] AlphaFold 1 constaba de varios módulos, cada uno entrenado por separado, utilizados para producir un potencial guía que luego se combinaba con el potencial energético basado en cálculos de física. AlphaFold 2 reemplazó esto con un sistema de subredes acopladas en un único modelo basado completamente en el reconocimiento de patrones, entrenado como una única estructura integrada.^[17]^[18] El refinamiento de la energía se aplica solo como un paso del refinamiento final una vez que la predicción de la red neuronal ha convergido, y solo ajusta ligeramente la estructura predicha.^[16]

Una parte clave del sistema de 2020 consiste en dos módulos, probablemente basados en un modelo de transformador, que se utilizan para refinar progresivamente un vector de información para cada relación —o «borde» en la terminología de la teoría de grafos— 1) entre dos aminoácidos de la proteína y 2) entre cada posición de aminoácido y cada secuencia en el alineamiento de secuencias.^[18] Internamente, este proceso de refinamiento tiene el efecto de reunir datos relevantes y filtrar datos irrelevantes (el «mecanismo de atención») para estas relaciones, de una manera dictada por los datos de entrenamiento. Estas transformaciones se repiten de manera que la información actualizada al final de una iteración se convierte en los datos de entrada de la siguiente; en cada paso, la información de la relación aminoácido-aminoácido mejorada sirve para actualizar la información de la relación residuo-secuencia, y viceversa.^[18] A medida que avanza la iteración, según un informe, el «algoritmo de atención ... imita la forma en que una persona podría armar un rompecabezas: primero conectando piezas en pequeños grupos, en este caso grupos de aminoácidos, y luego buscando formas de unir los grupos en un todo más grande».^[4]

El resultado de estas iteraciones provee la información para la predicción final del módulo de predicción de la estructura,^[18] que también usa transformadores.^{[n. 2]} En un ejemplo presentado por DeepMind, el módulo de predicción de la estructura logró una topología correcta para la proteína en su primera iteración, que recibió una puntuación de 78 en la prueba de distancia global (GDT), pero con un 90 % de violaciones estereoquímicas, es decir, ángulos o longitudes de enlace no permitidos. En las iteraciones posteriores, el número de violaciones estereoquímicas disminuyó. En la tercera iteración, el GDT de la predicción era casi 90, y en la octava iteración el número de violaciones estereoquímicas se acercaba a cero.^[18]

El equipo de AlphaFold declaró en noviembre de 2020 que sería posible introducir cambios para mejorar la precisión.^[19]

En diciembre de 2018, AlphaFold 1 ocupó el primer lugar en la clasificación general de la 13.ª Evaluación crítica de técnicas para la predicción de la estructura de proteínas (CASP).^[20]^[21]

El programa era capaz de predecir más correctamente las estructuras condideradas más difíciles por los organizadores, para las que no había estructuras de proteínas con una secuencia parcialmente similar. AlphaFold generó la mejor predicción para 25 de 43 proteínas en esta clase,^[21]^[22]^[23] logrando una puntuación media de 58,9 en la prueba de distancia global por delante de los 52,5 y 52,4 obtenidos por los siguientes mejores equipos,^[24] que también utilizaban el aprendizaje profundo para estimar las distancias de contacto.^[25]^[26] La puntuación general de AlphaFold en todos los objetivos fue de 68,5.^[27]

En enero de 2020, se publicó código de demostración de AlphaFold 1 como código abierto en GitHub,^[28]^[12] pero, como se indica en el archivo de instrucciones adjunto, solo se puede utilizar para los datos de CASP13, y no para predecir la estructura de cualquier proteína.

En noviembre de 2020, la nueva versión de DeepMind, AlphaFold 2, ganó CASP14,^[14]^[29] con los mejores resultados en 88 de las 97 predicciones. En la medida de distancia global (GDT), el programa logró una puntuación media de 92,4 sobre 100,^{[n. 3]} un nivel de precisión comparable al obtenido experimentalmente con la cristalografía de rayos X.^[19]^[6]^[27] Dos años antes, en CASP13, AlphaFold 1 solo había alcanzado este nivel de en dos de todas sus predicciones; en 2020, 88 % de las predicciones obtuvieron una puntuación media de más de 80, que ascendió a 87 en los casos clasificados como difíciles.

En lo que concierne a la raíz del error cuadrático medio (RMSD) de la posición de los átomos de carbono alfa de la cadena principal de la proteína, cantidad muy sensible a las desviaciones atípicas muy amplias, el 88 % de las predicciones de AlphaFold 2 tenían un valor de 4 Å. Un 76 % y 46 % de las predicciones lograron RMSD menores de 3 y 2 Å respectivemente. La RMSD media de las predicciones fue de 2,1 Å.^[5] AlphaFold 2 también logró predicciones correctas para las cadenas laterales de los aminoácidos

Los modelos generados por AlphaFold 2 sirvieron además para determinar cuatro estructuras que hasta entonces no se habían podido elucidar de novo con métodos experimentales.^[30] Una de ellas era la de la Af1503, una proteína de membrana estudiada durante diez años.^[4] En estos cuatro casos, los modelos de AlphaFold se usaron como punto de partida para el método de reemplazo molecular, que requiere una similitud estructural entre el modelo y la estructura real.^[30]

De las tres peores predicciones de AlphaFold, dos de las estructuras pudieron obtenerse por espectroscopia mediante resonancia magnética nuclear de proteínas (RMN), a partir de una solución acuosa, mientras que AlphaFold se entrenó principalmente en estructuras cristalinas. La tercera proteína existe como un complejo multidominio de 52 copias idénticas del mismo dominio, un caso que para el que AlphaFold no estaba programado. En todos los casos con un solo dominio, excluyendo solo una proteína muy grande y las dos estructuras determinadas por RMN, AlphaFold 2 logró una puntuación GDT de más de 80.^[31]

AlphaFold 2 se considera un logro significativo en biología computacional y un gran progreso en el campo de la predicción de estructuras a partir de la secuencia de aminoácidos.^[4]^[6] El Premio Nobel de Química y biólogo estructural Venki Ramakrishnan ha descrito los resultados como «un avance asombroso en el problema del plegamiento de proteínas», y predijo que «cambiará fundamentalmente la investigación biológica».^[14]

A raíz de los comunicados de prensa de CASP y DeepMind,^[32]^[14] AlphaFold 2 recibió una amplia atención en los medios. Además de las noticias en la prensa científica especializada, como Nature,^[6] Science,^[4] MIT Technology Review,^[2] y New Scientist,^[33]^[34] la historia apareció en la prensa generalista,^[35]^[36]^[37]^[38] así como servicios de noticias y publicaciones semanales, como Fortune,^[39]^[17] The Economist,^[19] Bloomberg,^[27] Der Spiegel,^[40] y The Spectator .^[41] En Londres, The Times publicó la historia en la portada, con dos páginas adicionales de cobertura interna y un editorial.^[42] Un comentario frecuente en todas las publicaciones es que la capacidad de predecir las estructuras de proteínas con exactitud, beneficiará a la investigación en el área de las ciencias de la vida, facilitará el proceso de descubrimiento de nuevos fármacos y ayudará a entender la causa de las enfermedades.^[6]

Una de las principales críticas a AlphaFold es la falta de transparencia. El líder del proyecto, John Jumper, hizo una presentación de 30 minutos sobre AlphaFold 2 durante la conferencia CASP14, descrita como «llena de ideas e insinuaciones, pero casi completamente desprovista de detalles».^[43] A diferencia de las presentaciones de otros grupos de investigación que tomaron parte en CASP14, la de DeepMind no fue grabada y no está disponible públicamente. En declaraciones a El País, el investigador Alfonso Valencia dijo: «Lo más importante que nos deja este avance es saber que este problema [el plagamiento de las proteínas] tiene solución, que es posible resolverlo [...] Google no proporciona el software y esta es la parte frustrante del logro porque no beneficiará directamente a la ciencia».^[38] Sin embargo, simplemente saber lo que DeepMind ha logrado puede incentivar a otros equipos a desarrollar sistemas de IA similares.^[38] A fines de 2019, DeepMind publicó una gran parte de la primera versión de AlphaFold como código abierto; pero solo cuando AlphaFold 2, mucho más potente, se encontraba en una fase avanzada de desarrollo. La preocupación por una posible falta de transparencia por parte de DeepMind se ha puesto en contraste con la labor de cinco décadas para elucidar las estructuras de miles de proteínas y almacenarlas en el Banco de Datos de Proteínas financiado principalmente con recursos públicos, al igual que otros repositorios abiertos de secuencias de ADN. Sin los resultados de este trabajo, públicamente accesibles, el éxito de AlphaFold 2 no hubiera sido posible.^[44]^[45]^[46]

Un investigador del grupo de Informática de Proteínas de Oxford ha resaltado que el éxito de AlphaFold se debe en parte a una ingente infraestructura computacional, a la que pocos grupos científicos pueden optar, y apunta a un futuro en el que los investigadores académicos no podrían llevar a cabo investigación en campos competitivos más que formando consorcios «de la misma meneral que los físicos de partículas tuvieron que unirse para construir proyectos enormes como CERN».^[47]

Con tan poco conocimiento sobre el funcionamiento interno de AlphaFold 2 se ha cuestionado su capacidad para identificar pliegues poco representados en las estructuras existentes en las bases de datos.^[7]^[48] También se desconoce hasta qué punto las estructuras de proteínas en tales bases de datos, en su mayoría de proteínas en estado cristalino, son representativas de proteínas no cristalizables o de las estructuras adoptadas por las mismas proteínas en condiciones fisiológicas en las células vivas. Las discrepancias entre las predicciones de AlphaFold 2 y las estructuras obtenidas mediante RMN pueden ser una señal de dificultades es esta área.

Greg Bowman, colaborador de Folding@home señaló que incluso una respuesta perfecta al problema de la predicción de proteínas no sería suficiente para comprender en detalle cómo el proceso de plegamiento ocurre realmente en la naturaleza —y cómo a veces las proteínas también pueden plegarse mal.^[49]

No está claro hasta qué punto las predicciones de AlphaFold 2 serán válidas para proteínas en complejos con otras proteínas y moléculas,^[48] puesto que AlphaFold no estaba diseñada para este caso. Precisamente fue en las predicciones de estructuras de proteínas con interacciones fuertes con otras copias de sí mismas o con otras estructuras donde AlphaFold 2 tuvo peores resultados. Dado que la maquinaria biológica de la célula se basa en gran parte en tales complejos, o en modificaciones de las proteínas al entrar en contacto con otras moléculas, esta es un área que todavía es un desafío para los programas de predicción de estructuras.^[48]

Además, debido a que AlphaFold solo funciona con proteínas, no considera los efectos en la estructura de otras biomoléculas asociadas. Elisa Fadda (Maynooth University, Irlanda) y Jon Agirre (University of York, Reino Unido) destacaron el impacto de la ausencia en los modelos AlphaFold de metales, cofactores y, más visiblemente, modificaciones co y postraduccionales como la glicosilación de proteínas. En estos casos, los científicos deben buscar en bases de datos como UniProt-KB posibles componentes ausentes del modelo, ya que estas pueden desempeñar un papel importante no solo en el plegamiento sino también en la función de las proteínas.^[50] Sin embargo, los autores comentaron que muchos de los modelos de AlphaFold eran lo suficientemente precisos como para permitir la introducción de modificaciones a posteriori.^[50]

Para que un modelo sea útil para el descubrimiento de fármacos, el error de la estructura en las partes de la proteína que conforman los sitios de unión no debe superar los 0,3 Å, pero las predicciones de AlphaFold 2 solo alcanzaban una rmsd de 0,9 Å para todos los átomos, lo que limitan su utilidad en tales contextos.^[7]^[48] Un problema fundamental en el desarrollo de nuevos fármacos, según el columnista de Science Derek Lowe y el autor de libros de ciencia Philip Ball, no es la capacidad de determinar la estructura de las «proteínas diana», sino la dificultad de determinar si realmente son dianas apropiadas —es decir, si su papel biológico en un proceso patológico es tal que su inhibición por los nuevos medicamentos frena la enfermedad sin efectos adversos inaceptables—. Esta información no es siempre dada por el conocimiento de la estructura. El desarrollo de mejores modelos para el estudio de las enfermedades y la determinación de la toxicidad de los fármacos antes de los estudios clínicos en seres humanos serían una prioridad mayor que la determinación estructural.^[51]^[52]^[53]

La base de datos de estructuras de proteínas generadas por AlphaFold se publicó el 22 de julio de 2021 conjuntamente por AlphaFold y el Instituto Europeo de Bioinformática. En el momento de la publicación, La base de datos contenía predicciones de estructuras de casi todo el proteoma humano en UniProt y veinte organismos modelo, lo que equivale a más de 365 000 proteínas. En julio de 2021, UniProt-KB e InterPro comenzaron a actualizarse para mostrar las predicciones de AlphaFold a medida que estén disponibles.^[54]^[55] La base de datos no incluye proteínas con menos de 16 o más de 2700 residuos de aminoácidos, excepto en el caso de proteínas humanas, donde todas las predicciones se encuentran en el archivo.^[56]

En octubre de 2021, un grupo de investigadores envió una carta al editor de Nature Structural & Molecular Biology para sugerir que la base de datos se completara gradualmente con las estructuras de cofactores faltantes, metales y modificaciones co y postraduccionales;^[50] por ejemplo, entre el 50 % y el 70 % de las estructuras del proteoma humano están incompletas si no se incluyen los glucanos unidos covalentemente.^[57]

AlphaFold se ha utilizado para predecir varias estructuras de proteínas del SARS-CoV-2, el agente causante de la COVID-19. A raíz de la pandemia, existe un gran interés en la determinación experimental de las estructuras de estas proteínas desde principios de 2020.^[58]^[6] Un equipo de científicos del Instituto Francis Crick en el Reino Unido examinó las predicciones antes de publicarlas para la comunidad entera de investigadores. El equipo reconoció que, aunque las estructuras podrían no ser necesarias para las investigaciones terapéuticas en curso, ayudarían a entender mejor la biología del virus.^[59] También confirmaron que la estructura de la proteína ORF3a predicha por AlphaFold 2 se asemejaban mucho la estructura determinada por microscopía crioelectrónica en la Universidad de California, Berkeley. Esta proteína ayuda a los virus replicados a salir de la célula huésped y se piensa que participa en el desencadenamiento de la respuesta inflamatoria a la infección.^[60]