Los investigadores han desarrollado una plataforma para la evaluación interactiva de chatbots impulsados ​​por inteligencia artificial, como ChatGPT.

Un equipo de informáticos, ingenieros, matemáticos y científicos cognitivos dirigido por la Universidad de Cambridge desarrolló una plataforma de evaluación de código abierto llamada Checkmate, que permite a los usuarios humanos interactuar con modelos de lenguaje grandes (LLM) y realizar revisiones.

Los investigadores probaron CheckMate en un experimento en el que participantes humanos utilizaron tres LLM (InstructGPT, ChatGPT y GPT-4) como ayuda para resolver problemas matemáticos de nivel universitario.

El equipo estudió qué tan bien los LLM podrían ayudar a los participantes a resolver problemas. A pesar de la relación generalmente positiva entre la precisión del chatbot y la utilidad percibida, los investigadores también encontraron casos en los que los LLM eran inexactos, pero aún así útiles para los participantes. Sin embargo, los participantes consideraron correctos algunos resultados incorrectos del LLM. Esto fue más notable entre los LLM que admiten chat.

Los investigadores sugieren modelos que expresan incertidumbre, responden bien a la optimización del usuario y pueden proporcionar una justificación integral para sus recomendaciones, creando mejores asistentes. Los usuarios humanos de LLM deben verificar cuidadosamente sus resultados dadas sus deficiencias actuales.

Resultados, reportados en Actas de la Academia Nacional de Ciencias (PNAS).la IA puede ser útil tanto para informar la capacitación en alfabetización como para ayudar a los desarrolladores a optimizar los LLM para una gama más amplia de usos.

Si bien los LLM son cada vez más poderosos, también pueden cometer errores y proporcionar información incorrecta, lo que puede tener consecuencias negativas a medida que estos sistemas se integren más en nuestra vida diaria.

El coautor Albert Jiang, del Departamento de Ciencias de la Computación de Cambridge, dijo: “Los LLM se han vuelto extremadamente populares y es importante evaluar su desempeño cuantitativamente, pero también debemos examinar si estos sistemas funcionan bien y pueden ayudar a las personas. ” y Tecnología. “Aún no disponemos de métodos integrales para evaluar el desempeño de LLM cuando interactúa con humanos”.

La forma estándar de evaluar los LLM se basa en pares estáticos de entradas y salidas, lo que ignora la naturaleza interactiva de los chatbots y cómo esto cambia su utilidad en diferentes escenarios. Los investigadores desarrollaron CheckMate, diseñado para, entre otras, aplicaciones en matemáticas, para ayudar a responder estas preguntas.

“Cuando hablan con matemáticos sobre el LLM, muchos de ellos caen en uno de dos campos principales: o piensan que el LLM puede producir pruebas matemáticas complejas por sí solos; o que los LLM son incapaces de realizar matemáticas simples”, dijo el coprimer autor. Katie Collins. “Por supuesto, la verdad probablemente esté en algún punto intermedio, pero queríamos encontrar una manera de comprobar para qué trabajos los LLM son adecuados y cuáles no”, afirman desde el departamento de ingeniería.

Los investigadores reclutaron a 25 matemáticos, desde estudiantes universitarios hasta profesores experimentados, para interactuar con tres LLM diferentes (InstructGPT, ChatGPT y GPT-4) y evaluar su desempeño utilizando CheckMate. Los participantes trabajaron en teorías matemáticas de nivel universitario con ayuda del LLM y se les pidió que calificaran la respuesta del LLM de cada individuo en cuanto a precisión y utilidad. Los participantes no sabían con qué LLM estaban interactuando.

Los investigadores registraron el tipo de preguntas que hicieron los participantes, cómo reaccionaron cuando se les presentó una respuesta total o parcialmente incorrecta, si intentaron corregir el LL.M o si pidieron una explicación. Los participantes tenían distintos niveles de experiencia en la redacción de indicaciones efectivas para LLM, y esto a menudo influyó en la calidad de las respuestas que proporcionaron los LLM.

Un ejemplo de un mensaje eficaz es “¿Cuál es la definición de X?” (X es un concepto en el problema) porque los chatbots pueden ser muy buenos para recuperar estos conceptos y explicárselos al usuario.

“Una de las cosas que hemos encontrado es una sorprendente falta de estos modelos”, dijo Collins. “A veces, estos LLM serán realmente buenos en matemáticas avanzadas y luego fallarán en algo mucho más simple. Esto demuestra que se debe pensar detenidamente en cómo utilizar los LLM de manera efectiva y adecuada. Es.”

Sin embargo, al igual que el LLM, los participantes humanos también cometieron errores. Los investigadores preguntaron a los participantes qué tan seguros estaban de su capacidad para resolver el problema para el cual estaban usando el LLM. En los casos en que el participante tenía menos confianza en sus propias habilidades, era más probable que identificara correctamente las especies incorrectas mediante LLM.

“Este tipo de LLM enfrentan un gran desafío en la evaluación”, dijo Jiang, “porque se están volviendo tan buenos en producir un lenguaje natural bueno y aparentemente preciso, que es fácil dejarse engañar por sus respuestas”. “También muestra que, si bien la evaluación humana es útil e importante, también es crítica y, a veces, inexacta. Cualquiera que utilice LLM, para cualquier aplicación, siempre obtiene resultados. Préstele atención y verifíquelo usted mismo”.

Con base en los resultados de Checkmate, los investigadores dicen que las nuevas generaciones de LLM pueden colaborar de manera útil y precisa con usuarios humanos en problemas matemáticos de nivel universitario, siempre que el usuario LLM pueda evaluar la precisión de las respuestas generadas a partir de Incluso si las respuestas se pueden memorizar y encontrar en algún lugar de Internet, los LLM tienen la ventaja de ser más flexibles en su entrada y salida que los motores de búsqueda tradicionales (aunque no deberían reemplazar a los motores de búsqueda en su forma actual).

Checkmate se probó en problemas matemáticos, dicen los investigadores, y su plataforma se puede adaptar a una variedad de campos. En el futuro, este tipo de retroalimentación podría incorporarse a los propios LLM, aunque ninguno de los comentarios de jaque mate del estudio actual se tuvo en cuenta en los modelos.

“Este tipo de herramientas pueden ayudar a la comunidad investigadora a comprender mejor las fortalezas y debilidades de estos modelos”, afirmó Collins. “No los usaremos como herramientas para resolver problemas matemáticos complejos nosotros mismos, pero pueden ser ayudas útiles si los usuarios saben cómo aprovecharlas”.

La investigación contó con el apoyo de la Comisión Marshall, Cambridge Trust, Peterhouse, Cambridge, el Instituto Alan Turing, el Consejo Europeo de Investigación y el Consejo de Investigación en Ingeniería y Ciencias Físicas (EPSRC), Investigación e Innovación del Reino Unido (UKRI). la parte de .

Source link