Home Smartwatch Los investigadores utilizan grandes modelos de lenguaje para ayudar a los robots...

Los investigadores utilizan grandes modelos de lenguaje para ayudar a los robots a navegar.

147

Algún día, querrás que tu robot doméstico baje una carga de ropa sucia y la deposite en la lavadora en el extremo izquierdo del sótano. El robot deberá combinar sus instrucciones con sus observaciones visuales para determinar qué debe hacer para completar la tarea.

Para un agente de IA, esto es más fácil decirlo que hacerlo. Los enfoques actuales suelen utilizar modelos de aprendizaje automático hechos a mano para manejar diferentes partes de la tarea, cuya construcción requiere mucho esfuerzo humano y experiencia. Estos métodos, que utilizan representaciones visuales para tomar decisiones de navegación directamente, exigen grandes cantidades de datos visuales para el entrenamiento, que a menudo son difíciles de obtener.

Para superar estos desafíos, investigadores del MIT y del MIT-IBM Watson AI Lab desarrollaron un método de navegación que convierte representaciones visuales en fragmentos de lenguaje, que luego se introducen en un modelo de lenguaje más grande que realiza múltiples tareas.

En lugar de codificar características visuales a partir de imágenes del entorno del robot como representaciones visuales, lo cual requiere un gran esfuerzo computacional, su método genera leyendas de texto que describen el punto de vista del robot. Un modelo de lenguaje grande utiliza encabezados para predecir las acciones que debe realizar un robot para llevar a cabo instrucciones basadas en el lenguaje del usuario.

Dado que su método utiliza representaciones puramente basadas en el lenguaje, pueden utilizar un modelo de lenguaje grande para generar de manera eficiente grandes cantidades de datos de entrenamiento sintéticos.

Aunque este enfoque no supera a las técnicas que utilizan características visuales, funciona bien en situaciones que carecen de datos visuales suficientes para el entrenamiento. Los investigadores descubrieron que combinar sus entradas basadas en el lenguaje con señales visuales conducía a un mejor rendimiento de navegación.

“Al utilizar el lenguaje como una representación puramente perceptual, tenemos un enfoque más directo. Debido a que todas las entradas pueden codificarse como lenguaje”, dice Bowen Penn de Ingeniería Eléctrica e Informática (EECS), podemos crear una percepción humana. velocidad.” estudiante de posgrado y autor principal de un artículo sobre este enfoque.

Los coautores de Penn incluyen a su asesora, Aude Oliva, directora de participación estratégica de la industria en el MIT Schwarzman College of Computing, directora del MIT Watson AI Lab del MIT-IBM, y el Instituto de Ciencias de la Computación e Inteligencia Artificial (CSAIL) incluye un investigador científico senior. . ); Philip Isola, profesor asociado de EECS y miembro de CSAIL; el autor principal Yoon Kim, profesor asistente de EECS y miembro de CSAIL; y otros en el MIT-IBM Watson AI Lab y Dartmouth College. La investigación se presentará en una conferencia del Capítulo Norteamericano de la Asociación de Lingüística Computacional.

Resolviendo el problema de la perspectiva con el lenguaje.

Debido a que los modelos de lenguaje grandes son los modelos de aprendizaje automático más poderosos disponibles, los investigadores han intentado incorporarlos en tareas complejas llamadas visión y navegación del lenguaje, dice Penn.

Pero estos modelos reciben entradas basadas en texto y no pueden procesar datos visuales de la cámara del robot. Entonces, el equipo necesitaba encontrar una manera de utilizar el lenguaje.

Su técnica utiliza un modelo de subtítulos simple para obtener descripciones textuales de las observaciones visuales del robot. Estos subtítulos se combinan con instrucciones basadas en el lenguaje y se introducen en un modelo de lenguaje más grande, que decide qué pasos de navegación debe seguir el robot a continuación.

El modelo de lenguaje grande subtitula la vista que el robot debería ver después de completar este paso. Esto se utiliza para actualizar el historial de trayectoria para que el robot pueda realizar un seguimiento de dónde ha estado.

El modelo repite estos procesos para generar una trayectoria que guía al robot hacia su objetivo, paso a paso.

Para agilizar el proceso, los investigadores diseñaron plantillas para presentar información de observación al modelo en un formato estandarizado, como una serie de elecciones que el robot puede tomar en función de su entorno.

Por ejemplo, una leyenda podría decir “A tu izquierda, en el ángulo de 30 grados, hay una puerta con una planta al lado, detrás de ti hay una pequeña oficina con un escritorio y una computadora”, etc. El modelo elige si el robot debe moverse hacia él. Puerta u oficina.

“Uno de los mayores desafíos fue descubrir cómo codificar adecuadamente ese tipo de información en el lenguaje para que el agente entienda cuál es la tarea y cómo debe responder”, dice Penn.

Beneficios del idioma

Cuando probaron este enfoque, si bien no podía superar a las técnicas basadas en la visión, descubrieron que tenía varias ventajas.

En primer lugar, debido a que el texto requiere menos recursos computacionales que los datos de imágenes complejos, su método se puede utilizar para generar rápidamente datos de entrenamiento sintéticos. En una prueba, generaron 10.000 trayectorias sintéticas basadas en 10 trayectorias visuales del mundo real.

Esta técnica también puede llenar los vacíos que impiden que un agente entrenado en un entorno simulado tenga un buen desempeño en el mundo real. Esta diferencia ocurre a menudo porque las imágenes generadas por computadora pueden parecer completamente diferentes de las escenas del mundo real debido a elementos como la iluminación o el color. Pero un lenguaje que describa imágenes artificiales versus imágenes reales sería muy difícil de distinguir, dice Penn.

Además, las representaciones de sus modelos son fáciles de entender para los humanos porque están escritas en lenguaje natural.

“Si el agente no logra alcanzar su objetivo”, dice Penn, “podemos determinar más fácilmente dónde falló y por qué falló. La información histórica puede no ser lo suficientemente clara, o las observaciones pueden no ser lo suficientemente precisas. Ignore los detalles importantes”.

Además, su método se puede aplicar más fácilmente a diferentes tareas y entornos porque utiliza solo un tipo de entrada. Siempre que los datos puedan codificarse como un lenguaje, pueden utilizar el mismo modelo sin modificaciones.

Pero una desventaja es que su método pierde naturalmente parte de la información que sería capturada por modelos basados ​​en la visión, como la información de profundidad.

Sin embargo, los investigadores se sorprendieron al descubrir que la combinación de representaciones basadas en el lenguaje con métodos basados ​​en la visión mejoraba la capacidad del agente para navegar.

“Esto probablemente significa que el lenguaje puede capturar información de alto nivel que no se puede capturar con las propiedades de la visión pura”, dice.

Ésta es un área que los investigadores quieren seguir explorando. También quieren desarrollar subtítulos basados ​​en la navegación que puedan aumentar la eficiencia del método. Además, quieren probar la capacidad de modelos lingüísticos grandes para demostrar conciencia espacial y ver cómo esto puede ayudar con la navegación basada en el lenguaje.

Esta investigación está financiada, en parte, por el MIT-IBM Watson AI Lab.

Source link