Home Smartwatch Un revolucionario motor de búsqueda de ADN está acelerando el descubrimiento genético

Un revolucionario motor de búsqueda de ADN está acelerando el descubrimiento genético

24

Ahora se pueden identificar enfermedades genéticas raras en los pacientes y se pueden identificar mutaciones específicas de tumores, un hito posible gracias a la secuenciación del ADN, que transformó la investigación biomédica hace décadas. En los últimos años, la introducción de nuevas tecnologías de secuenciación (secuenciación de próxima generación) ha impulsado una ola de éxito. Entre 2020 y 2021, por ejemplo, estos métodos permitieron una rápida decodificación y seguimiento global del genoma del SARS-CoV-2.

Al mismo tiempo, un número cada vez mayor de investigadores están haciendo públicos los resultados de su secuenciación. Esto ha provocado una explosión de datos almacenados en importantes bases de datos como la estadounidense SRA (Sequence Read Archive) y la europea ENA (European Nucleotide Archive). En conjunto, estos archivos contienen ahora alrededor de 100 petabytes de información, aproximadamente el equivalente al texto total encontrado en Internet, donde un solo petabyte equivale a un millón de gigabytes.

Hasta ahora, los científicos biomédicos necesitaban enormes recursos informáticos para buscar en estos vastos depósitos genéticos y compararlos con sus propios datos, lo que hacía casi imposibles las búsquedas exhaustivas. Los investigadores de ETH Zurich han desarrollado ahora una forma de superar esa limitación.

Busque texto completo en lugar de descargar el conjunto de datos completo

El equipo desarrolló una herramienta llamada Metagraph, que agiliza y acelera drásticamente el proceso. En lugar de descargar conjuntos de datos completos, MetaGraph permite búsquedas directas dentro de datos de ADN o ARN sin procesar, muy parecido a utilizar un motor de búsqueda de Internet. Los científicos simplemente ingresan una secuencia genética de interés en un campo de búsqueda y, dependiendo de la consulta, pueden ver dónde aparece esa secuencia en una base de datos global, en cuestión de segundos o minutos.

“Es una especie de Google para el ADN”, explica el profesor Gunnar Raats, científico de datos del Departamento de Informática de la ETH Zurich. Anteriormente, los investigadores sólo podían buscar metadatos descriptivos y luego tenían que descargar conjuntos de datos completos para acceder a secuencias sin procesar. Ese método era lento, imperfecto y costoso.

Metagraph también es notablemente rentable, según los autores del estudio. Representar secuencias biológicas disponibles públicamente requeriría sólo unos pocos discos duros de computadora y no costaría más de 0,74 dólares por megabase para consultas grandes.

Debido a que el nuevo motor de búsqueda de ADN es rápido y preciso, podría acelerar significativamente la investigación, especialmente la identificación de patógenos emergentes o el análisis de factores genéticos asociados con la resistencia a los antibióticos. El sistema puede incluso ayudar a identificar virus beneficiosos que destruyen las bacterias dañinas (bacteriófagos) que se esconden en esta enorme base de datos.

Contracción por un factor de 300

En su investigación publicada el 8 de octubre, el Dr. la naturalezaEl equipo de ETH demostró cómo funciona MetaGraph. La herramienta organiza y comprime datos genéticos utilizando gráficos matemáticos avanzados que estructuran la información de manera más eficiente, de manera muy similar a como el software de hoja de cálculo organiza los valores. “Matemáticamente hablando, se trata de una matriz enorme con millones de columnas y billones de filas”, explica Rätsch.

La indexación para hacer que se puedan realizar búsquedas en grandes conjuntos de datos es un concepto familiar en informática, pero el método ETH se destaca por cómo combina datos sin procesar con metadatos y al mismo tiempo logra una notable tasa de compresión de casi 300 veces. Esta reducción funciona de manera muy similar a resumir un libro: captura toda la información relevante en una forma mucho más pequeña, eliminando la redundancia y preservando las descripciones y relaciones esenciales.

“Estamos superando los límites de lo posible para mantener los conjuntos de datos lo más compactos posible sin perder información esencial”, afirmó el Dr. Andre Kahles, quien, al igual que Rätsch, es miembro del Grupo de Informática Biomédica de ETH Zurich. A diferencia de otras máscaras de detección de ADN que se están investigando actualmente, el método de los investigadores de ETH es escalable. Esto significa que cuanto mayor sea la cantidad de datos a buscar, menos potencia informática adicional necesitará la herramienta.

La mitad de los datos ya están disponibles

Introducido por primera vez en 2020, Metagraph se ha perfeccionado continuamente. La herramienta ahora es de acceso público para búsqueda (https://metagraph.ethz.ch/search) y ya indexa millones de secuencias de ADN, ARN y proteínas de virus, bacterias, hongos, plantas, animales y humanos. Actualmente, se han incluido aproximadamente la mitad de todos los conjuntos de datos de secuencias globales disponibles y se espera que el resto lo haga a finales de año. Debido a que MetaGraph es de código abierto, también puede atraer el interés de compañías farmacéuticas que manejan grandes cantidades de datos de investigación internos.

Kahles incluso cree que es posible que algún día el motor de búsqueda de ADN sea utilizado por particulares: “Al principio, ni siquiera Google sabía exactamente para qué servía un motor de búsqueda. Si la secuenciación del ADN continúa desarrollándose rápidamente, la identificación más precisa de las plantas en el porche puede convertirse en algo común”.

Enlace fuente