Home Smartwatch Rompiendo el código de la vida: el nuevo modelo de IA aprende...

Rompiendo el código de la vida: el nuevo modelo de IA aprende el lenguaje oculto del ADN.

208

El ADN contiene la información básica necesaria para sustentar la vida. Comprender cómo se almacena y organiza esta información ha sido uno de los mayores desafíos científicos del último siglo. Con GROVER, un nuevo modelo de lenguaje de gran tamaño entrenado en ADN humano, los investigadores ahora pueden intentar decodificar la compleja información oculta en nuestro genoma. Desarrollado por un equipo del Centro de Biotecnología de la Universidad Tecnológica de Dresde (BIOTEC), GROVER trata el ADN humano como texto, aprendiendo sus reglas y contexto para obtener información funcional sobre la secuencia del ADN. Esta nueva herramienta, publicada en Inteligencia de la máquina de la naturalezatiene el potencial de transformar la genómica y acelerar la medicina personalizada.

Desde el descubrimiento de la doble hélice, los científicos han intentado comprender la información codificada en el ADN. Después de 70 años, ha quedado claro que la información codificada en el ADN es multidimensional. Sólo entre el 1 y el 2% del genoma está formado por genes, las secuencias que codifican las proteínas.

“El ADN tiene muchas funciones además de codificar proteínas. Algunas secuencias regulan genes, otras tienen propósitos estructurales. La mayoría de las secuencias realizan más de una función al mismo tiempo. Actualmente, no entendemos mucho del ADN. Cuando se trata de comprender las funciones no regiones codificantes del ADN, parece que apenas hemos comenzado a arañar la superficie de dónde pueden surgir la IA y el gran lenguaje. Los modelos pueden ayudar”, dice la Dra. Anna Poets, líder del grupo de investigación en BIOTEC.

El ADN como lenguaje.

Los principales modelos de lenguaje, como GPT, han cambiado nuestra comprensión del lenguaje. Entrenados exclusivamente en texto, los modelos de lenguaje grandes desarrollaron la capacidad de usar el lenguaje en muchos contextos.

“El ADN es el código de la vida. ¿Por qué no se lo trata como un lenguaje?” dice el Dr. Poetsch. El equipo de Poetsch entrenó un modelo de lenguaje de gran tamaño a partir de un genoma humano de referencia. La herramienta resultante, llamada GROVER, o “reglas del genoma obtenidas a través de representaciones extraídas”, se puede utilizar para extraer significado biológico del ADN.

“Grover aprendió las reglas del ADN. En términos de lenguaje, estamos hablando de gramática, sintaxis y semántica. Para el ADN, eso significa las reglas que rigen la secuencia, la secuencia de nucleótidos y la secuencia, y el significado de la secuencia. Como los modelos GPT que aprenden lenguajes humanos, GROVER esencialmente ha aprendido a ‘hablar’ el ADN”, explica la Dra. Melissa Sanabria, investigadora detrás del proyecto.

El equipo demostró que GROVER no solo puede predecir con precisión las siguientes secuencias de ADN, sino que también puede usarse para extraer información contextual que tiene significado biológico, como la identificación de genes en el ADN o sitios de unión a proteínas. GROVER también estudia procesos que generalmente se consideran “epigenéticos”, es decir, procesos reguladores que ocurren sobre el ADN en lugar de estar codificados en él.

“Es interesante que al entrenar a GROVER solo con secuencias de ADN, sin ninguna anotación de funciones, en realidad podemos obtener información sobre la función biológica. Para nosotros, esto muestra que la función, incluida cierta información epigenética, también está codificada en la secuencia. ”, dice el doctor Sanabria.

Diccionario de ADN

“El ADN es análogo al lenguaje. Tiene cuatro letras que forman una secuencia y la secuencia tiene un significado. Sin embargo, a diferencia del lenguaje, el ADN no tiene palabras definidas”, dice el Dr. Poets. El ADN consta de cuatro letras (A, T, G y C) y genes, pero no existen secuencias predeterminadas de longitudes variables que se combinen para formar genes u otras secuencias significativas.

Para entrenar a Grover, el equipo primero tuvo que crear un diccionario de ADN. Usaron un truco del algoritmo de compresión. “Este paso es fundamental y distingue nuestro modelo de lenguaje de ADN de esfuerzos anteriores”, dice el Dr. Poets.

“Analizamos todo el genoma y buscamos combinaciones de letras que ocurren con frecuencia. Comenzamos con dos letras y recorrimos el ADN de forma iterativa, hasta llegar a las combinaciones de varias letras más comunes. “Así, en unos 600 ciclos, hemos descompone el ADN en ‘palabras’ que permiten a Grover desempeñarse al máximo a la hora de predecir la siguiente secuencia”, explica el Dr. Sanabria.

La promesa de la IA en genómica

GROVER promete desbloquear las diferentes capas del código genético. El ADN contiene información importante sobre lo que nos hace humanos, nuestra predisposición a las enfermedades y nuestras respuestas al tratamiento.

“Creemos que comprender las reglas del ADN a través de un modelo de lenguaje nos ayudará a descubrir el significado biológico más profundo oculto en el ADN, haciendo avanzar la genómica y la medicina personalizada”, dice el Dr. Poets.

Source link