Home Smartwatch El nuevo enfoque de la capacitación puede ayudar a los agentes de...

El nuevo enfoque de la capacitación puede ayudar a los agentes de IA a desempeñarse mejor en condiciones inciertas.

82

Un robot casero capacitado para realizar tareas domésticas en una fábrica puede dejar de limpiar efectivamente el fregadero o eliminar la basura cuando se despliega en la cocina de un usuario, ya que este nuevo entorno es diferente de su espacio de entrenamiento es

Para evitar esto, los ingenieros a menudo intentan cumplir con el entorno de capacitación en la medida de lo posible con el mundo real donde se implementará el agente.

Sin embargo, los investigadores del MIT y en otros lugares ahora han encontrado que, a pesar de esta sabiduría tradicional, a veces en un entorno completamente diferente, hay un agente de inteligencia artificial que funciona mejor que la capacitación.

Sus resultados sugieren que, en algunos casos, el entrenamiento de un agente de IA artificial en el mundo con menos incertidumbre o “ruido”, mejor que un agente de IA competitivo entrenado en el mundo del ruido, un mundo de ruido. Solían probar a ambos agentes.

Los investigadores llaman a esta tendencia inesperada un efecto de entrenamiento en interiores.

“Si aprendemos a jugar al tenis en un entorno interior donde no hay ruido, podemos dominar fácilmente diferentes tiros. Entonces, si nos movemos a un entorno ruidoso como una cancha de tenis afilada, es posible que tengamos más probabilidades de jugar tenis si comenzamos Aprendiendo en un entorno aéreo, un asistente de investigación del MIT Media Lab y un efecto de entrenamiento en interiores.

Los investigadores estudiaron la tendencia entrenando a los agentes de IA para jugar juegos, en el que incluyeron algunas capacidades inesperadas y la modificaron. Se sorprendieron al saber que el entrenamiento interior tuvo un impacto permanente en los juegos y juegos de Attari.

Esperan que estos resultados promuevan investigaciones adicionales para preparar mejores métodos de capacitación para los agentes de IA.

“Este es un eje completamente nuevo para pensar. En lugar de tratar de cumplir con el entorno de capacitación y prueba, podemos construir un entorno artificial donde el agente de IA aprenda aún mejor”. Universidad de Harvard.

El estudiante graduado del MIT se unió a Bono y Madan Paper a través de Eshan Grover. Estudiante graduado Mao Yasoda en la Universidad de Yale; Cynthia Breysel, profesora de artes y ciencias de los medios y líder del grupo de robótica personal en el MIT Media Lab. Profesor de Ciencias de la Computación de Wang en Harvard; Y Gabriel Crime, profesor de la Facultad de Medicina de Harvard. Esta investigación se presentará en la Asociación para el Avance de la Conferencia de Inteligencia Artificial.

Problemas de capacitación

Los investigadores salieron a descubrir por qué cuando se verificaban estos entornos, eran diferentes de los agentes de entrenamiento cuando eran diferentes del espacio de entrenamiento.

Kimk Learning es un método de prueba y error en el que el agente busca espacio de capacitación y aprende a tomar medidas que maximizan su premio.

El equipo desarrolló una técnica que claramente aumentó en una cierta cantidad de ruido en un factor en el problema del aprendizaje, llamada función de transferencia. La función de transferencia explica la posibilidad de que un agente se mueva de un estado a otro, en función de él, se elige.

Si el agente está jugando PAC Main, una función de transición puede explicar la posibilidad de que los fantasmas en el tablero se muevan hacia arriba, hacia abajo, hacia la izquierda o la derecha. En el aprendizaje de los refuerzos estándar, la IA será entrenada y probada utilizando la misma función de transferencia.

Los investigadores aumentaron el ruido en la función de transición con este enfoque tradicional y, como se esperaba, dañaron el rendimiento del PAC Man del agente.

Pero cuando los investigadores entrenaron al agente con los deportes principales de PAC sin ruido, lo probaron en un entorno donde necesitaban el ruido en la ceremonia de transferencia, lo hizo mejor que un agente entrenado en el juego de ruido.

“La regla del pulgar es que debe tratar de capturar la función de la transferencia de despliegue, así como puede hacer la mayor explosión para sus ciervos durante la capacitación. .

Inyectar diferentes cantidades de ruido en la función de transferencia permite a los investigadores probar muchos entornos, pero esto no produce juegos realistas. Cuanto más el ruido hizo en el PAC Main, más probabilidades tendrá de telefonear a los fantasmas en diferentes cuadrados.

Para ver si el entrenamiento interior fue efectivo en los deportes principales de PAC ordinarios, ajustaron las posibilidades básicas para que los fantasmas generalmente se movieran, pero más probabilidades de subir y bajar en lugar de la izquierda y la derecha. Los agentes de AII entrenados en un entorno libre de ruido todavía funcionaban bien en estos deportes realistas.

“No fue solo por cómo agregar ruido para crear un entorno ad hoc”, dice Bono.

Especificaciones de investigación

Cuando los investigadores excavaron en busca de aclaraciones, vieron algunas de las comunidades cómo los agentes de IA descubrieron el sitio de capacitación.

Cuando ambos agentes de IA encuentran principalmente las mismas áreas, el agente entrenado en un entorno no descuidado funciona bien, tal vez porque es fácil para el agente aprender las reglas del juego sin intervención de ruido.

Si sus muestras de búsqueda son diferentes, el agente capacitado en el ruidoso entorno funciona bien. Esto puede deberse a que el agente necesita comprender los patrones que no puede aprender en un entorno ruidoso.

Bono explicó: “Si solo aprendo a jugar al tenis con mi oferta en un entorno extraordinario, pero luego en el ruido que tengo que jugar con mis manos traseras, no jugaré en un entorno no innovador”. .

En el futuro, se espera que los investigadores descubran cómo el efecto de la capacitación en interiores puede ser en el entorno de aprendizaje más complejo, o con otras técnicas como la visión por computadora y el procesamiento del lenguaje natural. También quieren crear un entorno de capacitación diseñado para aprovechar el efecto de entrenamiento en interiores, lo que puede ayudar a los agentes de IA a funcionar mejor en el entorno incierto.

Source link