Home Técnica AI es mala en Sudoku. Es peor en caso de mostrar su...

AI es mala en Sudoku. Es peor en caso de mostrar su trabajo

38

Los controles de chat son realmente impresionantes cuando lo haces bien para verlos, ya que funcionan bien, como escribir un correo electrónico básico o crear imágenes extrañas y futuras. Sin embargo, se le pide al generador AI que resuelva uno de esos rompecabezas detrás de un periódico y las cosas pueden desaparecer rápidamente del ferrocarril.

Esto es lo que los investigadores de la Universidad de Colorado en Bolder recibieron esto cuando desafiaron a los grandes modelos de idiomas a resolver Sudoku. Y ni siquiera el rompecabezas 9×9 estándar. Un simple rompecabezas de 6×6 a menudo excede la capacidad de un LLM sin asistencia externa (en este caso, equipos específicos que consumen rompecabezas).

Etiquetas de insignia de Ai Atlas

Otra búsqueda importante llegó cuando se les pidió a los modelos que mostraran su trabajo. En la mayoría de los casos, no pudieron. A veces mienten. A veces explican cosas que no significan nada. A veces se alucinan y comienzan a hablar sobre el clima.

El equipo general de IA debe ser nuestras decisiones si sus decisiones no son adecuadas o transparentes, porque le damos a estos problemas más control sobre nuestra vida y decisiones, Ashutosh Trivedi, profesor de informática en la Universidad de Colorado, dijo uno de los autores Papel Publicado en la búsqueda de lingüística de la Asociación en julio.

“Queremos que estas explicaciones sean transparentes y reflejaran por qué la IA fue hecha para ser transparente, y la IA no está tratando de manipular a las personas explicando que AI puede ser similar”, dijo Trivedi.


No se pierda nuestro contenido técnico neutral y revisiones basadas en el laboratorio. Agregar CNET Como la fuente de Google deseada.


El documento es parte de la creciente organización de la investigación sobre el comportamiento de los modelos de idiomas grandes. Otros estudios recientes han demostrado que, por ejemplo, los modelos que parte de los alucinados se deben a que sus métodos de entrenamiento no son correctos, o las personas que usan LLM para ayudar a escribir ensayos tienen menos probabilidades de recordar lo que les escribieron. A medida que Jenner Ai se convierte en otra parte de nuestra vida diaria, los efectos de cómo funciona esta tecnología y cómo nos comportamos cuando la usamos se vuelve muy importante.

Cuando tome una decisión, puede intentar justificarla, o al menos explicar cómo alcanzala. Es posible que un modelo de IA no pueda hacerlo de manera adecuada o transparente. ¿Lo creerás?

Véalo: He creado una PC de IA desde cero

¿Por qué LLM pelea con Sudoku?

Hemos visto que los modelos de IA fallar en juegos y rompecabezas básicos antes. El chatzp de OpenAI (entre otros) ha aplastado por completo el juego Atari de 1979 por oponentes de computadora. Un estudio reciente de Apple ha demostrado que los modelos pueden luchar con Otro rompecabezasEl

Tiene que hacer la forma en que funciona para LLMS y llena el vacío de información. Estos modelos intentan completar estos huecos en función de lo que sucede en los mismos casos en otras cosas que han visto en su entrenamiento o en el pasado. La pregunta, incluido un sudoku, es uno de los argumentos. Parece una respuesta razonable, AI puede intentar llenar cada espacio en cada espacio, pero para resolverlo correctamente, toda la imagen debe verse en su lugar y encontrar un orden lógico que cambie del rompecabezas al rompecabezas.

Leer más: Según nuestros expertos, 29 maneras pueden funcionar para usted Jenner AI

La misma razón son los chattabots en la masticación. Encuentran los próximos pasos de los pasos lógicos, pero no piensan necesariamente tres, cuatro o cinco pasos hacia adelante, las habilidades básicas necesarias para jugar bien el ajedrez. Los chattabs a veces eliminan las piezas de ajedrez de una manera que realmente no sigue las reglas o no las piezas en un riesgo sin sentido.

Puede esperar que LLM pueda resolver sudoku porque consisten en computadoras y rompecabezas, pero los rompecabezas en sí no son realmente matemáticos; Son simbólicos. “Sudoku es famoso como un rompecabezas que se puede hacer con algo que no es un número”, dijo Fabio Sommengji, profesor de CU y escritor de documentos de investigación.

Utilicé un mensaje de muestra del documento de los investigadores y se lo di al chatzip. El equipo mostró su trabajo y me dijo repetidamente que tenía la respuesta antes de mostrar un rompecabezas que no funciona, luego regresa y lo corrige. Fue tal que el bot se convirtió en una presentación que continuó obteniendo ediciones de último segundo: esta es la respuesta final. No, de hecho, no te importa, Este La respuesta final. Finalmente obtuvo la respuesta, a través de pruebas y errores. Sin embargo, las pruebas y los errores no son una forma práctica para que una persona resuelva el sudoku en el periódico. Esto es mucho más eliminar y arruinar la diversión.

Un robot juega ajedrez contra una persona.

La IA y los robots pueden ser mejores si están construidos para jugar en los juegos, pero las herramientas de información general como los modelos de idiomas grandes pueden combatir el rompecabezas lógico.

Ore de mineral de Wheying/Bloomberg/Getty

Se esfuerza por mostrar el trabajo de AI

Los investigadores de Colorado simplemente no querían ver si el bot podría resolver el rompecabezas. Querían una explicación de cómo el bot los trabajó a través de ellos. Las cosas no son buenas.

Al examinar la previa O1 de Opnai, los investigadores han encontrado que las explicaciones, incluso para los rompecabezas correctamente resueltos, su arroz no explicó o justificó adecuadamente y las condiciones básicas estaban mal.

“Es razonable proporcionar una explicación de las cosas que son buenas”, dijo Maria Pachako, profesora asistente de informática en el CU. “Están alineados con las personas, por lo que han aprendido a hablar como nos gusta, pero son los verdaderos pasos que son leales a lo que deben ser los pasos reales es que estamos luchando un poco sobre dónde están”.

A veces, las explicaciones eran completamente irrelevantes. Después de terminar el papeleo, los investigadores han estado examinando nuevos modelos publicados. Somenjji dijo que cuando él y Trivedi estaban ejecutando el modelo de lógica O4 del OpenAI a través de la misma prueba, parecía que se lanzó por completo.

“La siguiente pregunta que hicimos, la respuesta fue el pronóstico del tiempo de Denver”, dijo.

(Publicar: GEF Davis, el principal CNET, en abril, presentó una demanda contra los OpenAI, alegó que había violado los derechos de autor de GMF Davis en la capacitación y operación de sus sistemas de IA).

Una habilidad importante para explicarse

Cuando resuelves un rompecabezas, debes poder caminar a alguien más a través de tus pensamientos. No es un problema trivial que estos LLM fallaran tan espectacularmente esa tarea básica. Las compañías de IA hablan constantemente de “agentes de IA” que pueden tomar medidas para usted, es esencial poder explicarse.

Considere el tipo de trabajos que se dan a la IA ahora, o planean en el futuro cercano: conducir, impuestos, técnicas comerciales para decidir y traducir documentos importantes. Imagínese si usted, una persona, una de esas cosas y qué sucede si algo sale mal.

“Cuando las personas tienen que poner sus caras frente a sus decisiones, podrán explicar mejor lo que sucedió con esa decisión”, dijo Somenji.

Esto no es solo una cuestión de respuesta razonable. Necesita ser correcto. Un día, se puede celebrar una interpretación de IA de una IA sobre sí mismo en la corte, pero ¿cómo se puede tomar en serio su testimonio si se dice que es falso? No confiará en una persona que no se explique y no confíe en nadie que haya encontrado que estaba diciendo lo que quiere escuchar en lugar de la verdad.

“Si esto se hace por razones incorrectas, la explicación está muy cerca de la explicación”. “Necesitamos tener mucho cuidado con la transparencia de estas explicaciones”.

Enlace fuente