Home Smartwatch ¿Puede la IA moderna resolver acertijos visuales y realizar razonamientos abstractos?

¿Puede la IA moderna resolver acertijos visuales y realizar razonamientos abstractos?

78
0

La inteligencia artificial ha aprendido a dominar el lenguaje, crear arte e incluso derrotar a grandes maestros del ajedrez. Pero, ¿puede romper las reglas del razonamiento abstracto, esos difíciles acertijos visuales que dejan a los humanos rascándose la cabeza? Investigadores del Instituto de Ciencias de la Información (ISI) de la Escuela de Ingeniería Viterbi de la USC están probando las capacidades cognitivas de la IA, avanzando en modelos de lenguaje grande multimodelo (MLLM) para resolver problemas visuales después de que están aumentando los específicos de las pruebas de coeficiente intelectual humano. ¿El resultado? Una mirada a lo lejos que ha llegado la IA y dónde aún tropieza.

Los asistentes de investigación de USC Viterbi ISI, Kian Ahrabian y Zhivar Sourati, investigaron recientemente si los MLLM pueden realizar razonamiento abstracto no verbal, tareas que requieren tanto percepción visual como razonamiento lógico, y Filadelfia, PA 7 presentó sus hallazgos en la Conferencia sobre Modelado del Lenguaje (COLM 2024) en octubre. . -9, 2024.

“Todos los días nos bombardean con nuevos titulares sobre lo que la IA puede (y no puede) hacer”, dijo Jay Pujara, profesor asociado de investigación de ciencias de la computación en la Escuela de Ingeniería Viterbi de la USC y autor del artículo. “Sorprendentemente, todavía tenemos una comprensión tan limitada de lo que los nuevos modelos de IA pueden hacer, y hasta que comprendamos estas limitaciones no podremos hacer que la IA sea mejor, más segura y más eficiente”.

Desafío: ¿Puede la IA ver y pensar?

“Queríamos ver si esta nueva generación de modelos grandes, capaces de procesar imágenes, podían razonar por sí solos”, explicó Ahrabian. “Por ejemplo, si ve que un círculo amarillo cambia a un triángulo azul, ¿puede el modelo aplicar el mismo patrón en un escenario diferente?”

Para responder a esta pregunta, el equipo probó 24 MLLM diferentes en acertijos basados ​​en las matrices progresivas de Raven, una conocida prueba de razonamiento abstracto. Descubrieron que los modelos de código abierto tenían dificultades significativas. “Fueron realmente malos. No pudieron sacar nada de eso”. Ahrabian dijo claramente.

Por el contrario, a los modelos de código cerrado, como el GPT-4V (modelos desarrollados por empresas privadas y no disponibles públicamente para su modificación), les fue mejor. Estos modelos suelen entrenarse con recursos más avanzados, incluidos conjuntos de datos más grandes y sistemas informáticos más potentes, lo que les otorga una ventaja significativa. “Vimos algunos resultados inusuales con el modelo de código cerrado”, añadió Ahrabian, “en particular, GPT-4V era relativamente bueno en el razonamiento, pero está lejos de ser perfecto”.

Donde la IA tropieza.

Una parte importante del estudio implicó descubrir dónde estaban fallando estos modelos. Una cuestión clave fue la capacidad de la IA para procesar información visual con precisión. “Queríamos saber si los modelos podían ver detalles, como colores o líneas que chocaban, y si eso era lo que estaban haciendo mal”, dijo Ahrabian.

Para aislar este problema, los investigadores proporcionaron descripciones textuales detalladas de las imágenes, asegurando que los modelos tuvieran toda la información necesaria en un formato diferente “incluso cuando eliminamos el elemento visual y solo les dimos texto, muchos modelos aún no podían razonar de manera efectiva”. “, explicó Surti. Esto reveló una idea importante: el problema no era sólo el procesamiento visual, sino el razonamiento mismo. Ahora, el equipo tenía una idea más clara de lo que no funcionaba, lo que les permitió refinar su enfoque y orientar futuras mejoras.

El camino a seguir: mejorar el razonamiento de la IA

Un enfoque prometedor que descubrieron los investigadores fue la “incitación en cadena de pensamiento”, donde se insta a la IA a pensar paso a paso a través de tareas de razonamiento. Este enfoque condujo a mejoras significativas en algunos casos. “Al guiar a los modelos con señales, pudimos ver una mejora del rendimiento de hasta el 100%”, señala Ahrabian.

A pesar de los desafíos que aún quedan, los investigadores son optimistas. Los hallazgos del estudio resaltan tanto las limitaciones actuales de la IA como las interesantes posibilidades para desarrollos futuros. A medida que estos modelos continúan evolucionando, la investigación de la USC podría allanar el camino para una IA que no sólo comprenda sino que razone, borrando la línea entre la inteligencia artificial y la cognición humana.

Nueva investigación en una nueva conferencia

Ahrabian y Sorati, estudiantes de doctorado en el Departamento de Ciencias de la Computación de Thomas Lord, presentaron el artículo, Un curioso caso de razonamiento abstracto no verbal con modelos multimodales de lenguaje grande, en COLM esta semana en el año inaugural de la conferencia.

Pujara, quien también es director del Centro de Gráficos Cognitivos de ISI, comentó: “La IA está experimentando una transformación importante con la llegada de los modelos de lenguaje. Anime a los aspirantes a estudiantes”.

Source link