Supongamos que desea entrenar a un robot para que comprenda cómo usar herramientas y luego aprender rápidamente a hacer reparaciones en la casa con un martillo, una llave y un destornillador. Para hacer esto, necesitará una gran cantidad de datos que demuestren el uso de la herramienta.
Los conjuntos de datos robóticos existentes varían ampliamente en modalidad: algunos incluyen imágenes en color mientras que otros contienen rastros táctiles, por ejemplo. Los datos también se pueden recopilar en diferentes dominios, como simulaciones o demostraciones humanas. Y cada conjunto de datos puede capturar una tarea y un entorno únicos.
Incorporar eficazmente datos de múltiples fuentes en un modelo de aprendizaje automático es difícil, ya que muchos métodos utilizan solo un tipo de datos para entrenar a un robot. Pero los robots entrenados de esta manera, con una cantidad relativamente pequeña de datos específicos de la tarea, a menudo no pueden realizar nuevas tareas en entornos desconocidos.
En un esfuerzo por entrenar mejores robots multipropósito, los investigadores del MIT desarrollaron una técnica para combinar múltiples fuentes de datos en dominios, modos y tareas utilizando un tipo de IA creativa llamada modelos de difusión.
Entrenan un modelo de difusión discreto para aprender una estrategia o política para realizar una tarea utilizando un conjunto de datos específico. Luego combinan las políticas aprendidas a través de modelos de difusión en una política general que permite al robot realizar múltiples tareas en diferentes entornos.
En simulaciones y experimentos del mundo real, este enfoque de entrenamiento permitió a un robot realizar múltiples tareas de uso de herramientas y adaptarse a nuevas tareas que no había encontrado durante el entrenamiento. El método, conocido como Composición de Políticas (PoCo), condujo a una mejora del 20 por ciento en el desempeño con respecto a la técnica de referencia.
“Resolver la heterogeneidad en los conjuntos de datos robóticos es como el problema del huevo y la gallina. Si queremos utilizar una gran cantidad de datos para entrenar políticas generales de robots, primero debemos conseguir robots desplegables para obtener todos estos datos”. “Todos los datos heterogéneos disponibles”, dice Leroy Wang, estudiante de posgrado en Ingeniería Eléctrica e Informática (EECS) y autor principal de un artículo sobre PoCo, como lo han hecho los investigadores con ChatGPT. Es un paso importante para el campo de la robótica.
Los coautores de Wang incluyen a Jialiang Zhao, un estudiante graduado en ingeniería mecánica. Yilun Du, estudiante de posgrado de EECS; Edward Adelson, profesor John y Dorothy Wilson de Ciencias de la Visión en el Departamento de Ciencias Cognitivas y del Cerebro y miembro del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL); y el autor principal Russ Tedrake, profesor Toyota de EECS, Aeronáutica y Astronáutica e Ingeniería Mecánica, y miembro de CSAIL. La investigación se presentará en la conferencia Robótica: Ciencia y Sistemas.
Combinando diferentes conjuntos de datos
Una política robótica es un modelo de aprendizaje automático que toma entradas y las utiliza para ejecutar una acción. Una forma de pensar en la política es la estrategia. En el caso de un brazo robótico, esa estrategia podría ser una secuencia de movimientos o posturas que mueven el brazo para que tome un martillo y lo utilice para clavar un clavo.
Los conjuntos de datos utilizados para aprender políticas robóticas suelen ser pequeños y se centran en una tarea y un entorno específicos, como empacar artículos en cajas en un almacén.
“Cada almacén robótico genera terabytes de datos, pero solo está relacionado con la instalación del robot específico que está trabajando en esos paquetes. Si pones todos esos datos para entrenar una máquina típica”, dice Wang, no es ideal si quieres usarlos. para”, dice Wang.
Los investigadores del MIT han desarrollado una técnica que puede tomar una serie de pequeños conjuntos de datos, como los recopilados de muchos almacenes robóticos, aprender políticas de cada uno por separado y combinar las políticas de tal manera que permitan a los robots realizar muchas tareas.
Representan cada política utilizando un tipo de modelo de IA generativo llamado modelo de difusión. Los modelos de difusión, a menudo utilizados para la generación de imágenes, aprenden a generar nuevos patrones de datos que se asemejan a patrones en el conjunto de datos de entrenamiento y mejoran iterativamente su resultado.
Pero en lugar de enseñar un modelo de difusión para generar imágenes, los investigadores le enseñan a generar una trayectoria para el robot. Lo hacen agregando ruido de velocidad al conjunto de datos de entrenamiento. El modelo de difusión elimina gradualmente el ruido y refina la salida en un solo paso.
Esta técnica, conocida como política de difusión, fue introducida por primera vez por investigadores del MIT, la Universidad de Columbia y el Instituto de Investigación Toyota. PoCo impulsa esta función de política de difusión.
El equipo entrena cada modelo de difusión con diferentes tipos de conjuntos de datos, como uno con demostraciones en video humanas y otro con teleoperación de un brazo robótico.
Luego, los investigadores realizan una suma ponderada de las políticas individuales aprendidas por todos los modelos de difusión, optimizando iterativamente el resultado para que la política combinada cumpla con los objetivos de cada política individual.
Mayor que la suma de sus partes
“Una ventaja de este enfoque es que podemos combinar políticas para obtener lo mejor de ambos mundos. Por ejemplo, una política formada con datos del mundo real puede lograr una mayor habilidad, mientras que una política formada con simulación puede ser capaz de lograr una mayor generalización”, afirma Wang.
Dado que las políticas se entrenan por separado, se pueden mezclar y combinar políticas de difusión para obtener mejores resultados para una tarea en particular. El usuario también puede agregar datos a un nuevo modelo o dominio entrenando una política de difusión adicional con ese conjunto de datos, en lugar de comenzar todo el proceso desde cero.
Los investigadores probaron PoCo en brazos robóticos reales y simulados que realizaban una variedad de tareas con herramientas, como usar un martillo para clavar un clavo y voltear un objeto con una espátula. PoCo mejoró el rendimiento de las tareas en un 20 % en comparación con los métodos de referencia.
“Lo sorprendente fue que cuando completamos el ajuste y lo visualizamos, pudimos ver claramente que la trayectoria formada se veía mejor que cualquiera de ellos individualmente”, dice Wang.
En el futuro, los investigadores quieren aplicar la técnica a tareas de largo plazo en las que un robot tomará una herramienta, la utilizará y luego cambiará a otra herramienta. También quieren incorporar grandes conjuntos de datos robóticos para mejorar el rendimiento.
“Necesitaremos los tres tipos de datos para que la robótica tenga éxito: datos de Internet, datos de simulación y datos de robots reales. Cómo combinarlos de manera efectiva es la pregunta del millón. PoCo es un paso sólido en la dirección correcta”, dice. Jim Fein, científico investigador senior de NVIDIA y líder de la Iniciativa de Agentes de IA, que no participó en el trabajo.
La investigación está financiada en parte por Amazon, la Agencia de Ciencia y Tecnología de Defensa de Singapur, la Fundación Nacional de Ciencias de EE. UU. y el Instituto de Investigación Toyota.