Home Smartwatch Los investigadores desarrollan una forma eficaz de formar agentes de IA más...

Los investigadores desarrollan una forma eficaz de formar agentes de IA más fiables.

49
0

Campos que van desde la robótica hasta la medicina y las ciencias políticas están tratando de entrenar sistemas de inteligencia artificial para tomar todo tipo de decisiones significativas. Por ejemplo, el uso de sistemas de inteligencia artificial para controlar de manera inteligente el tráfico en una ciudad congestionada podría ayudar a los conductores a llegar a sus destinos más rápido, al tiempo que mejora la seguridad o la sostenibilidad.

Desafortunadamente, enseñar a un sistema de IA a tomar buenas decisiones no es una tarea fácil.

Los modelos de aprendizaje por refuerzo, que forman la base de estos sistemas de toma de decisiones de IA, todavía fallan a menudo cuando se enfrentan a pequeños cambios en las tareas para las que están entrenados. En el caso del tráfico, un modelo puede tener dificultades para controlar conjuntos de intersecciones con diferentes límites de velocidad, número de carriles o patrones de tráfico.

Para aumentar la confiabilidad de los modelos de aprendizaje por refuerzo para tareas complejas con variables, los investigadores del MIT han introducido un algoritmo más eficiente para entrenarlos.

Los algoritmos seleccionan estratégicamente las mejores tareas para entrenar a un agente de IA para que pueda realizar de manera eficiente todas las tareas en un conjunto de tareas relacionadas. En el caso del control de semáforos, cada tarea puede ser una intersección en el espacio de tareas que incluye todas las intersecciones de la ciudad.

Al centrarse en una pequeña cantidad de intersecciones que contribuyen más a la efectividad general del algoritmo, este método maximiza el rendimiento y mantiene bajos los costos de capacitación.

Los investigadores descubrieron que su técnica era entre cinco y 50 veces más eficiente que los enfoques estándar en una variedad de tareas sintéticas. Este aumento en la eficiencia ayuda al algoritmo a aprender mejores soluciones más rápido y, en última instancia, mejora el rendimiento del agente de IA.

“Pudimos ver mejoras de rendimiento increíbles al pensar de manera innovadora, con un algoritmo muy simple. Un algoritmo que no es demasiado complejo tiene más posibilidades de ser adoptado por la comunidad porque es más fácil de implementar y más fácil para otros”. entender”, dice la autora principal Cathy Wu, profesora asociada de desarrollo profesional de ingeniería civil y ambiental Thomas D. y Virginia W. Cabot. (CEE) y miembro del Instituto de Datos, Sistemas y Sociedad (IDSS) y del Laboratorio de Sistemas de Información y Decisión (LIDS).

El autor principal, Jung Hoon Cho, un estudiante de posgrado de ECO, contribuyó al artículo. Vindula Jayawardana, estudiante de posgrado del Departamento de Ingeniería Eléctrica e Informática (EECS); y Sarui Lee, estudiante de posgrado del IDSS. La investigación se presentará en la Conferencia sobre Sistemas de Procesamiento de Información Neural.

Encontrar el término medio

Para entrenar un algoritmo para controlar los semáforos en varias intersecciones de una ciudad, un ingeniero normalmente elegirá entre dos enfoques principales. Puede entrenar un algoritmo para cada intersección de forma independiente, usando datos solo de esa intersección, o entrenar un algoritmo más grande usando datos de todas las intersecciones y luego entrenarlo en cada una de ellas.

Pero cada enfoque tiene sus desventajas. Entrenar un algoritmo separado para cada tarea (como intersecciones dadas) es un proceso que requiere mucho tiempo y muchos datos y cálculos, mientras que entrenar un algoritmo para todas las tareas a menudo resulta en un rendimiento subóptimo.

Wu y sus colegas encontraron un punto óptimo entre estos dos enfoques.

Para su método, eligen un subconjunto de tareas y entrenan un algoritmo de forma independiente para cada tarea. Es importante destacar que seleccionan estratégicamente las tareas individuales que tienen más probabilidades de mejorar el rendimiento general del algoritmo en todas las tareas.

Aprovechan un truco común en el campo del aprendizaje por refuerzo llamado aprendizaje por transferencia de disparo cero, en el que un modelo previamente entrenado se aplica a una nueva tarea sin más entrenamiento. Con el aprendizaje por transferencia, el modelo a menudo funciona notablemente bien en la tarea del nuevo vecino.

“Sabemos que sería ideal entrenar en todas las tareas, pero nos preguntamos si podríamos entrenar en un subconjunto de esas tareas, aplicar los resultados a todas las tareas y aún así poder ver un aumento en el rendimiento”, dice Wu.

Para identificar qué tareas deberían elegir para maximizar el rendimiento esperado, los investigadores desarrollaron un algoritmo llamado aprendizaje por transferencia basado en modelos (MBTL).

El algoritmo MBTL tiene dos partes. Por un lado, modela el rendimiento de cada algoritmo si se entrenara de forma independiente en una tarea. Luego modela cuánto disminuiría el rendimiento de cada algoritmo si el rendimiento de cada algoritmo se transfiriera al trabajo de otro, un concepto conocido como eficiencia generalizada.

Modelar claramente el rendimiento general permite a MBTL estimar el valor del entrenamiento en una nueva tarea.

MBTL hace esto de forma secuencial, seleccionando primero la tarea que conduce al mayor rendimiento y luego seleccionando tareas adicionales que proporcionen la menor mejora posterior en el rendimiento general.

Dado que MBTL se centra únicamente en las tareas más prometedoras, puede mejorar drásticamente la eficiencia del proceso de formación.

Reducir los costes de formación

Cuando los investigadores probaron la técnica en tareas simuladas, incluido el control de señales de tráfico, la gestión de avisos de velocidad en tiempo real y la realización de varias tareas de control clásicas, resultó entre cinco y 50 veces más eficiente que otros métodos.

Esto significa que pueden llegar a la misma solución entrenándose con muchos menos datos. Por ejemplo, con un aumento de rendimiento 50 veces mayor, el algoritmo MBTL puede entrenarse en solo dos tareas y lograr el mismo rendimiento que un método estándar que utiliza datos de 100 tareas.

“Desde dos perspectivas críticas, esto significa que los datos para las otras 98 tareas no eran necesarios o que entrenar las 100 tareas confunde el algoritmo, por lo que el rendimiento es peor que el nuestro”, dice Wu.

Con MBTL, agregar incluso una pequeña cantidad de tiempo de entrenamiento adicional puede mejorar enormemente el rendimiento.

En el futuro, los investigadores planean diseñar algoritmos MBTL que puedan adaptarse a problemas más complejos, como espacios de trabajo de alta dimensión. También está interesado en aplicar su enfoque a problemas del mundo real, en particular a los sistemas de movilidad de próxima generación.

Esta investigación ha sido financiada en parte por un premio CAREER de la Fundación Nacional de Ciencias, el programa de becas de doctorado de la Fundación Educativa Kwanjeong y una beca de doctorado en Robótica de Amazon.

Source link