top of page
Search

El potencial de la IA para acelerar los descubrimientos de la ciencia

La inteligencia artificial se posiciona como una de las tecnologías que marcarán nuestro futuro mediante la transformación de áreas como la investigación científica.


José María Ramos Chacón Bsc Economics, 3rd year student



El potencial de la inteligencia artificial como fuente de progreso y prosperidad


El término inteligencia artificial (IA) es amplio y de uso generalizado en todo tipo de medios de comunicación. Por ello, es importante precisar qué significado le otorgamos a este término en este artículo. Por inteligencia artificial nos referiremos a todo tipo de combinaciones de algoritmos planteados con el propósito de que permitan a las máquinas realizar tareas propias del ser humano.

El primer trabajo en hacer uso de inteligencia artificial fue realizado en 1943 por los investigadores estadounidenses Warren McCullochy y Walter Pitts. Desde entonces, este campo ha tenido una evolución irregular pasando de décadas caracterizadas por el ostracismo académico y las dificultades de financiación a vivir en la última década su punto álgido en cuanto a inversión y avances en esta materia. De hecho, el volumen total de publicaciones académicas relacionadas con la investigación en IA aumentó un 50% en los años comprendidos entre 2015 y 2019.


El incremento significativo del poder computacional, el redescubrimiento del aprendizaje reforzado (tecnología inventada en los 70), y las innovaciones como los transformers o las Redes Generativas Antagónicas son algunas de las razones de la proliferación de los casos de uso de la IA. Entre las muchas aplicaciones de esta tecnología, la que destacaremos en este artículo es su impacto en la investigación científica. Por ejemplo, recientemente gracias al modelo AlphaTensor se descubrió una nueva manera de efectuar la multiplicación de matrices entre un 10% y 20% más eficiente que el método usado actualmente. Sin lugar a duda, el modelo de IA que más ha contribuido a la ciencia es AlphaFold 2, logrando una gran precisión a la hora de predecir el plegamiento de las proteínas y es por esto por lo que nos centraremos en este caso.


Un problema planteado hace 50 años, elemental para la biología estructural


Durante la conferencia de los galardonados por los premios Nobel de Química del año 1972, Christian B. Anfinsen fue de los primeros en especular que sería posible conocer la estructura 3D de las proteínas a partir de su secuencia de aminoácidos^. Desde entonces, gran parte de los esfuerzos de la comunidad científica ha centrado sus esfuerzos en resolver lo que se conoce como el Dogma de Anfinsen. Antes de exponer cómo la inteligencia artificial ha contribuido para lograr este fin, expondremos de forma simplificada cómo se forman las proteínas y porqué es importante conocer su estructura.


Las proteínas son unas moléculas indispensables puesto que realizan una infinidad de funciones vitales. Por ejemplo, transportan moléculas por todo el organismo como la hemoglobina que transporta oxígeno o nos ayudan a defendernos de los agentes infecciosos. Nuestras proteínas son secuencias compuestas por la combinación de 20 tipos de aminoácidos distintos. Dependiendo de cómo estén combinados los aminoácidos y cómo interactúan entre sí, el plegamiento será de una forma u otra. Es por esto por lo que cada proteína está compuesta por una secuencia única. Comprender el plegamiento de las proteínas es esencial debido a que si las proteínas no se pliegan correctamente pueden impedir que esta funcione y en algunos casos generar enfermedades como el Párkinson o el Alzhéimer.


Uno de los métodos más comunes que se ha estado utilizando para conocer estas estructuras es la cristalografía de rayos X. Este método consiste en analizar cómo los rayos X se difractan al interaccionar con los electrones que rodean a los átomos que conforman a la proteína. Según un estudio de la Universidad de Toronto conocer la estructura de una proteína costaba alrededor de 120.000 $ y un año de trabajo.


Los excepcionales resultados de AlphaFold 2 en el CASP 14


En el campo de la bioinformática se organizan numerosas competiciones que abordan temas importantes sobre esta disciplina y en las participan equipos de investigación de todo el mundo. La competición más importante de esta índole es el Critical Appraisal Skills Programme (CASP), que precisamente enfrenta a laboratorios con el objetivo de encontrar el método de modelado que mejor prediga el plegamiento de una proteína. Los investigadores deberán crear sus modelos y utilizarlos en secuencias de estructuras de proteínas de las cuales ya se han descubierto sus estructuras usando métodos tradicionales pero que todavía no se han añadido al Protein Data Bank (PDB) ni se han hecho públicas a la comunidad. Por lo tanto, el objetivo es que las predicciones se asemejen lo más posible a la estructura ya descubierta por otros métodos.


De cara a evaluar el ganador de la competición se utilizó la métrica GDT (“ensayo de la distancia global”). Esta medida refleja el porcentaje de residuos de aminoácidos que se encontrarán en la posición correcta dentro de un pequeño margen de error. Las puntuaciones del GDT están comprendidas entre 0 y 100; y un resultado de 90 indican una precisión similar a los métodos usados actualmente. Los resultados presentados en la última edición del CASP tomaron a toda la comunidad por sorpresa, el modelo AlphaFold 2 diseñado por la subsidiaria de Google, Deepmind, logró una puntuación media de 92.4.



Una breve explicación del funcionamiento de AlphaFold 2


Esta parte del artículo no pretende dar una descripción completa del funcionamiento de AlphaFold 2, más bien trata de explicar la intuición que hay detrás de este modelo. Esta explicación obvia ciertas partes como el preprocesamiento. Podemos dividir en tres el funcionamiento del modelo.


En primer lugar, el sistema de AlphaFold 2 emplea una secuencia de aminoácidos como entrada(input). Estas secuencias son utilizadas para buscar en distintas bases de datos, secuencias de proteínas que son utilizadas para construir un alineamiento múltiple de secuencias (MSA, por sus siglas en inglés). Este proceso consiste en alinear varias secuencias de proteínas similares. De los resultados obtenidos se puede inferir su homología, y determinar las partes de la secuencia más proclives a mutar. A partir de la entrada también se identifican proteínas que puedan tener una estructura similar y se construyen representaciones de estas a las que se le otorga el nombre de “pair representations”.


En segundo lugar, el modelo recoge el alineamiento múltiple de secuencia (MSA) y las “pair representations” y los introduce en dos redes neuronales tipo transformers cada una especializadas en un tipo de datos (la MSA o la “pair representation”) y un canal de comunicación entre éstas que permite el intercambio regular de información y el refinamiento iterativo. Los transformers son una arquitectura de redes neuronales que permiten procesar todos los datos simultáneamente sin perder la información posicional y que contienen mecanismos de atención. Estos mecanismos identifican qué parte de los datos son más informativos y la relación entre éstos. Todo este proceso nos permite perfeccionar las representaciones de la MSA y de las “pair representations”.


Por último, las representaciones perfeccionadas son introducidas en una red neuronal que se encarga de generar la estructura 3D. El resultado final es una larga lista de coordenadas que representan la posición de cada átomo de la proteína.



¿Qué supondrá Alpha Fold 2 para la biología y la investigación científica?


Desde el día en que se presentaron los resultados del CASP 14 hasta el 15 de julio de 2021, cuando se publicó el artículo en la revista Nature, gran parte de la comunidad estuvo especulando sobre los métodos utilizados por Deepmind e intentando reproducir el código de AlphaFold 2. Sin lugar a duda, los impresionantes resultados de AlphaFold 2 provocaron que muchos científicos se interesaran por el campo de la inteligencia artificial y evidenciaron la utilidad que puede tener esta tecnología en muchas disciplinas de investigación. Este acontecimiento también puede haber sido una muestra del rol que las entidades privadas pueden llegar a tener en el futuro de la investigación.


AlphaFold 2 tiene y tendrá un impacto decisivo en el campo de la biología. Esto es gracias a que Deepmind hizo accesible el código fuente y los detalles de cómo procesar la data pipeline, lo cual permite efectuar predicciones de las estructuras de las proteínas con un método económico, rápido y desde cualquier dispositivo con suficiente poder computacional. A pesar de que el modelo no funcionará tan bien con algunas clases de proteínas de las cuales tenemos menos datos, éste permitirá grandes avances. Por ejemplo, las predicciones de estructuras ayudarán en el desarrollo de nuevos fármacos. También, permitirá que los laboratorios se centren en nuevas cuestiones en las cuales antes no podían investigar por falta de información, ampliando así los conocimientos en biología.



65 views0 comments
Post: Blog2_Post
bottom of page