En los últimos años, los investigadores han logrado avances considerables con la tecnología unicelular. Esto permite investigar tejidos por células individuales y determinar las diferentes funciones de tipos de células individuales. El análisis se puede utilizar, por ejemplo, para comparar con células sanas y ver cómo el tabaquismo, el cáncer de pulmón o la infección por COVID cambian la composición de las células individuales de los pulmones.
Al mismo tiempo, la analítica genera cantidades cada vez mayores de datos. Los investigadores planean aplicar métodos de aprendizaje automático para ayudar en el proceso de reinterpretar conjuntos de datos existentes, sacar conclusiones de patrones y aplicar los hallazgos a otros campos.
El aprendizaje autodirigido como nuevo enfoque
Fabian Theis ocupa la Cátedra de Modelado Matemático de Sistemas Biológicos en TUM. Con su equipo, ha investigado si el aprendizaje autosupervisado es más adecuado que otros métodos para analizar grandes volúmenes de datos. El estudio fue publicado recientemente en Nature Machine Intelligence. Esta forma de aprendizaje automático funciona con datos sin etiquetar. No se requieren datos de muestra preclasificados. Esto significa que no es necesario preasignar datos a algunos grupos. Los datos sin etiquetar están disponibles en grandes cantidades y permiten una representación sólida de grandes volúmenes de datos.
El aprendizaje autodirigido se basa en dos métodos. En el aprendizaje enmascarado, como sugiere el nombre, una parte de los datos de entrada se enmascara y el modelo se entrena para reconstruir los elementos faltantes. Además, los investigadores aplican el aprendizaje contradictorio en el que el modelo aprende a combinar datos similares y separar datos diferentes.
El equipo utilizó ambos métodos de aprendizaje autosupervisados para probar más de 20 millones de células individuales y los comparó con los resultados de los métodos de aprendizaje clásicos. En su revisión de los distintos métodos, los investigadores se centraron en tareas como predecir tipos de células y reconstruir la expresión genética.
Potencial de crecimiento de las ventas virtuales
Los resultados del estudio muestran que el aprendizaje autosupervisado mejora el rendimiento, especialmente con tareas de transferencia, es decir, cuando se analizan pequeños conjuntos de datos que informan conocimientos de un conjunto de datos de apoyo más grande. Además, los resultados de las predicciones de células de disparo cero (en otras palabras, tareas realizadas sin entrenamiento previo) también son prometedores. Una comparación entre el aprendizaje enmascarado y el heterogéneo muestra que el aprendizaje enmascarado es mejor para aplicaciones con grandes conjuntos de datos de una sola celda.
Los investigadores están utilizando los datos para trabajar en el desarrollo de células virtuales. Se trata de modelos informáticos completos que reflejan la diversidad de células en diferentes conjuntos de datos. Estos modelos son prometedores para el análisis de cambios celulares como los que se observan, por ejemplo, en las enfermedades. Los resultados del estudio ofrecen información valiosa sobre cómo estos modelos pueden hacerse más efectivos y mejorarse aún más.