Home Smartwatch Las IA son irracionales, pero no de la misma manera que lo...

Las IA son irracionales, pero no de la misma manera que lo son los humanos.

149
0

Los grandes modelos de lenguaje detrás de plataformas populares de IA generativa como ChatGPT dieron diferentes respuestas cuando se les pidió que respondieran la misma prueba de razonamiento y no mejoraron cuando se les dio contexto adicional, según muestra un investigador de la UCL.

El estudio, publicado en Ciencia abierta de la Royal Society, probaron modelos de lenguaje grande (LLM) de última generación utilizando pruebas de psicología cognitiva para evaluar su capacidad de razonamiento. Los hallazgos resaltan la importancia de comprender cómo “piensan” estas IA antes de asignarles tareas, en particular aquellas que implican la toma de decisiones.

En los últimos años, los LLM que impulsan aplicaciones de inteligencia artificial como ChatGPT se han vuelto cada vez más sofisticados. Su capacidad para crear textos, imágenes, audio y vídeos realistas ha generado preocupación sobre su capacidad para robar empleos, influir en las elecciones y cometer delitos.

Sin embargo, se ha demostrado que estas IA fabrican información de forma rutinaria, dan respuestas inconsistentes e incluso se equivocan en sumas matemáticas simples.

En este estudio, los investigadores de la UCL analizaron sistemáticamente si siete LLM eran capaces de realizar un razonamiento racional. Una definición común de agente racional (humano o artificial) adoptada por los autores es si se ajusta a los principios de lógica y probabilidad. Un agente irracional es aquel que no razona según estos principios.1.

A los LLM se les aplicó una batería de 12 pruebas comunes de psicología cognitiva para evaluar el razonamiento, incluida la tarea de Wasson, el problema de Linda y el problema de Monty Hall.2. Los humanos son menos capaces de resolver estas tareas. En estudios recientes, sólo el 14% de los participantes acertó en el problema de Linda y el 16% en la tarea de Wason.

Los modelos mostraron irracionalidad en muchas de sus respuestas, como dar respuestas diferentes cuando se les hacía la misma pregunta 10 veces. Eran propensos a cometer errores simples, incluidos errores básicos de suma y uso incorrecto de las letras, lo que les llevaba a dar respuestas incorrectas.

Por ejemplo, las respuestas correctas en la tarea de Wason oscilaron entre el 90% para GPT-4 y el 0% para GPT-3.5 y Google Bard. Llama 2 70b, que respondió correctamente el 10% de las veces, confundió la letra K con una consonante y por lo tanto respondió incorrectamente.

Aunque la mayoría de los humanos tampoco responderían correctamente a la tarea de Wason, es poco probable que esto se deba a que no sabían qué era una letra.

La primera autora del estudio, Olivia Macmillan-Scott, de Ciencias de la Computación de la UCL, dijo: “Basándonos en los resultados de nuestro estudio y otras investigaciones sobre grandes modelos de lenguaje, es seguro decir que estos modelos aún no ‘piensan’ como los humanos.

“Dicho esto, el modelo con el conjunto de datos más grande, GPT-4, funcionó mucho mejor que los otros modelos, lo que sugiere que están mejorando rápidamente. Sin embargo, es difícil decir que la razón de este modelo en particular es que es un modelo cerrado. sistema. Sospecho que hay otras herramientas en uso que no habrías encontrado en su predecesor, GPT-3.5”.

Algunos modelos se negaron a responder tareas por motivos éticos, a pesar de que las preguntas eran inocentes. Es probable que esto se deba a que los parámetros de seguridad no funcionan según lo previsto.

Los investigadores también proporcionaron contexto adicional a las tareas, lo que se ha demostrado que mejora las respuestas de las personas. Sin embargo, no se mostró una mejora constante entre los LLM evaluados.

El autor principal del estudio, el profesor Mirko Mosulisi, de Ciencias de la Computación de la UCL, dijo: “Las capacidades de estos modelos son bastante sorprendentes, especialmente para las personas que han estado trabajando con computadoras durante décadas, diría yo.

“Curiosamente, no entendemos realmente el comportamiento emergente de los modelos de lenguaje grande y por qué y cómo obtienen respuestas correctas o incorrectas. Ahora tenemos formas de arreglar estos modelos, pero luego surge una pregunta: si intentamos resolver estos problemas al enseñar modelos, ¿imponemos también nuestras propias deficiencias que LLM nos obliga a considerar cómo razonamos y nuestros prejuicios, y queremos algo que cometa errores, o queremos que sean perfectos?

Los modelos probados fueron GPT-4, GPT-3.5, Google Bard, Claude 2, Llama 2 7b, Llama 2 13b y Llama 2 70b.

1 Stein E. (1996). Sin una buena razón: el debate sobre la racionalidad en filosofía y ciencia cognitiva. Prensa de Clarendon.

2 Estas tareas y sus soluciones están disponibles en línea. Un ejemplo es el trabajo de Wason:

El trabajo de Wesson.

Comprueba la siguiente regla: si una tarjeta tiene una letra en un lado, el otro lado tiene un número par.

Ahora ves cuatro cartas:

  1. mi
  2. del
  3. 4
  4. 7

¿Cuál de estas tarjetas debería cambiarse para verificar la regla de todos modos?

Respuesta: a) E y d) 7, porque estos son los únicos que pueden violar la regla.

Source link