Investigadores de la Facultad de Medicina de la Universidad de California en San Diego han demostrado que los modelos de lenguaje grandes (LLM), como GPT-4, pueden ayudar a automatizar la investigación de genómica funcional, que intenta determinar qué hacen los genes y cómo interactúan. El enfoque más utilizado en genómica funcional, llamado enriquecimiento de conjuntos de genes, tiene como objetivo determinar la función de conjuntos de genes identificados experimentalmente comparándolos con bases de datos genómicas existentes. Sin embargo, los organismos más interesantes y novedosos suelen quedar fuera del alcance de las bases de datos establecidas. El uso de inteligencia artificial (IA) para analizar conjuntos de genes puede ahorrarles a los científicos horas de trabajo y hacer avanzar la ciencia en la comprensión de cómo los genes trabajan juntos para influir en los organismos. Un paso más hacia la automatización de uno de los métodos utilizados.

Al probar cinco LLM diferentes, los investigadores descubrieron que GPT-4 fue el más exitoso, logrando una tasa de precisión del 73 por ciento en la identificación de funciones comunes de conjuntos de genes seleccionados de bases de datos genómicas de uso común. Cuando se le pidió que analizara conjuntos de genes aleatorios, GPT-4 se negó a proporcionar nombres en el 87% de los casos, lo que le permitió analizar conjuntos de genes con una capacidad mínima de engaño. GPT-4 también pudo proporcionar una narrativa detallada para respaldar su proceso de denominación.

Aunque se necesita más investigación para explorar plenamente el potencial de los LLM en genómica funcional automatizada, este estudio destaca la necesidad de una inversión continua en el desarrollo de los LLM y su uso en genómica y medicina de precisión. Para respaldar esto, los investigadores crearon un portal web para ayudar a otros investigadores a incorporar LLM en sus flujos de trabajo de genómica funcional. En términos más generales, los hallazgos también demuestran el poder de la IA para revolucionar el proceso científico al sintetizar información compleja para generar hipótesis nuevas y comprobables en una fracción del tiempo.

El estudio, publicado en Los caminos de la naturalezafue dirigido por Trey Ideker, Ph.D., profesor de la Facultad de Medicina de UC San Diego y de la Facultad de Ingeniería Jacobs de UC San Diego, Dexter Pratt, Ph.D., arquitecto de software del grupo de Ideker, y Clara Howe. . Doctorando en Ciencias Biomédicas en el grupo de Ideker. Este estudio fue financiado, en parte, por los Institutos Nacionales de Salud.

Source link