Ayudando a los robots a tomar buenas decisiones en tiempo real

6 December 2024

En 2018, el programa AlphaZero de Google DeepMind aprendió por sí solo los juegos de ajedrez, shogi y Go y utilizó el aprendizaje automático y un algoritmo específico para determinar los mejores movimientos para ganar el juego dentro de una cuadrícula fija. Ahora, un equipo de investigadores de Caltech ha desarrollado un algoritmo similar para robots autónomos: un sistema de control de planificación y toma de decisiones que ayuda a los robots que se mueven libremente a realizar los mejores movimientos para navegar en el mundo real.

“Nuestro algoritmo en realidad elabora estrategias y luego explora todos los movimientos posibles e importantes y elige el mejor a través de una simulación dinámica, como jugar muchos juegos de simulación que involucran robots en movimiento”, dice Son-Joo Chung es profesor de control y sistemas dinámicos en Caltech y. un mayor. Científico investigador del JPL, que Caltech gestiona para la NASA. “La innovación revolucionaria aquí es que hemos ideado una manera muy eficiente de encontrar el mejor movimiento seguro que los métodos normales basados en optimización nunca encontrarían”.

El equipo describe la técnica, a la que llaman búsqueda de árbol de expansión espectral (SETS), en el artículo de portada de diciembre de la revista. Robótica científica.

Muchos robots pueden moverse libremente y en cualquier dirección. Por ejemplo, consideremos un robot humanoide diseñado para ayudar a una persona mayor en casa. Un robot de este tipo debe poder moverse de muchas maneras diferentes y, esencialmente, en cualquier dirección dentro del espacio cuando encuentre obstáculos o eventos inesperados mientras completa sus tareas. El conjunto de movimientos, obstáculos y desafíos de este robot será muy diferente al de un coche autónomo, por ejemplo.

Entonces, ¿cómo puede un algoritmo tomar las mejores decisiones para mover varios sistemas robóticos por su entorno?

“No querrás que un diseñador entre y cree estos movimientos a mano y diga: ‘Este es un conjunto discreto de movimientos que un robot puede hacer'”, dice John Lathrop, un estudiante graduado en sistemas dinámicos y de control. estudiantes en Caltech y coautor principal del nuevo artículo. “Para superar esto, se nos ocurrió SETS”.

SETS utiliza la teoría de control y el álgebra lineal para explorar movimientos naturales que utilizan plenamente las capacidades de la plataforma robótica en un entorno físico.

El concepto básico se basa en Monte Carlo Tree Search, un algoritmo de toma de decisiones también utilizado por Alpha Zero de Google. Aquí, Monte Carlo básicamente significa algo aleatorio, y la búsqueda de árbol se refiere a navegar por la estructura ramificada que representa las relaciones de datos en el sistema. En un árbol de este tipo, la raíz se ramifica en los llamados nodos secundarios que están conectados por aristas. Al utilizar la búsqueda de árbol de Monte Carlo para un juego como Go, los posibles movimientos se representan como nuevos nodos y el árbol crece a medida que se prueban más muestras aleatorias de posibles movimientos. El algoritmo analiza posibles movimientos para ver los resultados finales de diferentes nodos y luego selecciona el que da el mejor resultado según la evaluación de puntos.

El problema, explica Lathrop, es que cuando esta estructura de árbol ramificado se utiliza para sistemas de movimiento continuo, como robots que operan en el mundo físico, el número total de trayectorias en el árbol crece exponencialmente. “Para algunos problemas, se necesitarán años, tal vez cientos de años, para intentar simular todas las posibilidades y luego descubrir cuál es la mejor”, afirma.

Para superar esto, SETS explota el equilibrio entre exploración y aprendizaje. “Queremos intentar imitar trucos que no hemos explorado antes; eso es exploración”, dice Lathrop. “Y queremos continuar explorando vías que han sido altamente recompensadas antes: eso es la explotación. Un equilibrio entre exploración y explotación. Al generar, el algoritmo puede converger rápidamente hacia la mejor solución entre todas las trayectorias posibles”.

Por ejemplo, si un robot comienza a calcular algunas acciones posibles que harán que golpee una pared, no necesita investigar ninguno de los otros nodos en esa rama del árbol.

“Explorar y explorar los movimientos naturales de los robots permite a nuestros robots pensar, moverse y adaptarse a nueva información en tiempo real”, dice Benjamin Revere (PhD ’24), investigador asociado postdoctoral en ingeniería civil y mecánica Adaptable. Ingeniería en Caltech y coautor principal de la tesis.

SETS puede ejecutar una búsqueda de árbol completo en una décima de segundo. Durante este tiempo, puede simular de miles a decenas de miles de trayectorias posibles, seleccionar la mejor y luego ejecutarla. Este bucle continúa una y otra vez, dándole al sistema robótico la capacidad de tomar muchas decisiones cada segundo.

Una característica importante del algoritmo SETS es que se puede implementar básicamente en cualquier plataforma robótica. No es necesario programar individualmente las funciones y capacidades. En el nuevo artículo, Chung y sus colegas demuestran la exitosa utilidad del algoritmo en tres entornos experimentales muy diferentes, una rareza en los artículos sobre robótica.

En el primero, un dron cuadrotor pudo observar cuatro bolas blancas flotando mientras evitaba cuatro bolas naranjas, todas navegando aleatoriamente por un aeropuerto con corrientes de aire peligrosas o térmicas. El experimento con drones se llevó a cabo en el Centro de Tecnologías y Sistemas Autónomos (CAST) de Caltech. En otro, el algoritmo ayudó a un conductor humano de un vehículo terrestre con orugas a navegar por una pista estrecha y sinuosa sin chocar con siderales. Y en la configuración final, SETS ayudó a capturar un par de naves espaciales conectadas y redirigir a un tercer agente, que podría representar otra nave espacial, un asteroide u otra cosa.

Un equipo de estudiantes e investigadores de Caltech está implementando actualmente una versión del algoritmo SETS en un IndyCar que participará en el Indy Automobiles Challenge en el Consumer Electronics Show (CES) en Las Vegas el 9 de enero.

Este trabajo fue apoyado por el programa de Control Introspectivo de Aprendizaje (LINC) de la Agencia de Proyectos de Investigación Avanzada de Defensa, Aerospace Corporation y Supernal, y se basa en parte en el trabajo apoyado por el Programa de becas de investigación para graduados de la Fundación Nacional de Ciencias.

Source link

RELATED ARTICLESMORE FROM AUTHOR

Los científicos urbanos vieron una rara estrella de explosión en tiempo real

Las computadoras cuánticas solo vencen a las personas clásicas, rápida e incondicionalmente

Puede comenzar a formar planetas antes de que crezcan las estrellas

RELATED ARTICLES MORE FROM AUTHOR