A medida que los sistemas de inteligencia artificial han comenzado a obtener puntuaciones extremadamente altas en los puntos de referencia académicos utilizados desde hace mucho tiempo, los investigadores han notado un problema creciente. Las pruebas que alguna vez desafiaron a la máquina ya no eran lo suficientemente difíciles. Evaluaciones conocidas como la prueba Massive Multitask Language Understanding (MMLU), que alguna vez se consideraron exigentes, ahora no logran medir con precisión las capacidades de los modelos avanzados de IA actuales.
Para resolver este problema, un equipo global de unos 1.000 investigadores, incluido un profesor de la Universidad Texas A&M, desarrolló un nuevo tipo de prueba. Su objetivo era crear una prueba amplia, sólida y basada en conocimiento humano experto de una manera que los sistemas de IA actuales todavía tienen dificultades para manejar.
El resultado es el “Humanities End Exam” (HLE), una evaluación de 2.500 preguntas que cubre una amplia gama de matemáticas, humanidades, ciencias naturales, lenguas antiguas y campos académicos altamente especializados. Los detalles del proyecto aparecen en un artículo publicado. la naturalezay hay información adicional disponible sobre la prueba lastexam.ai.
Entre los muchos contribuyentes se encuentra el Dr. Tung Nguyen, profesor asociado de instrucción en el Departamento de Ingeniería y Ciencias de la Computación de Texas A&M. Nguyen ayudó a redactar y perfeccionar muchas de las preguntas del examen.
“Cuando los sistemas de IA empiezan a funcionar extremadamente bien según los estándares humanos, es tentador pensar que han alcanzado una comprensión a nivel humano”, dijo Nguyen. “Pero HLE nos recuerda que la inteligencia no se trata sólo de reconocimiento de patrones: se trata de profundidad, contexto y habilidades especializadas”.
El propósito de la prueba no era engañar o derrotar a los examinados humanos. En cambio, el objetivo era identificar cuidadosamente áreas en las que los sistemas de IA aún no son suficientes.
Un esfuerzo global para medir los límites de la IA
Expertos de todo el mundo han escrito y revisado las preguntas incluidas en el último examen de humanidades. Cada problema fue diseñado cuidadosamente para que tenga una respuesta clara y verificable. También se formularon preguntas para evitar soluciones rápidas mediante simples búsquedas en Internet.
Los temas van desde desafíos académicos avanzados. Algunas tareas traducen antiguas inscripciones palmirenas, otras requieren identificar pequeñas estructuras anatómicas de aves o analizar las características detalladas de la pronunciación hebrea bíblica.
Los investigadores probaron cada pregunta con los principales sistemas de inteligencia artificial. Si un modelo podía responder una pregunta correctamente, esa pregunta se eliminaba de la prueba final. Este proceso aseguró que la prueba fuera más allá de lo que los sistemas de IA actuales podían resolver de manera confiable.
Las pruebas iniciales confirmaron que la estrategia funcionó. Incluso los modelos de IA más potentes tuvieron problemas con el experimento. El GPT-4o alcanzó una puntuación del 2,7 por ciento, mientras que el Claude 3.5 Sonnet alcanzó el 4,1 por ciento. El modelo o1 de OpenAI tuvo un rendimiento ligeramente mejor con un 8 por ciento. Los sistemas más capaces hasta la fecha, incluidos el Gemini 3.1 Pro y el Claude Opus 4.6, han alcanzado niveles de precisión entre aproximadamente el 40 y el 50 por ciento.
Por qué se necesitan nuevos puntos de referencia de IA
Nguyen explicó que la cuestión de superar las pruebas antiguas es más que una preocupación técnica. Ha contribuido con 73 de las 2500 preguntas disponibles públicamente en HLE, el segundo mayor número de contribuyentes, y ha escrito la mayor cantidad de preguntas relacionadas con matemáticas e informática.
“Sin las herramientas de evaluación adecuadas, los responsables políticos, los desarrolladores y los usuarios corren el riesgo de malinterpretar lo que los sistemas de IA realmente pueden hacer”, afirmó. “Los puntos de referencia proporcionan la base para medir el progreso e identificar riesgos”.
Según el equipo de investigación, las puntuaciones altas en pruebas diseñadas para humanos no necesariamente indican una verdadera inteligencia. Estos puntos de referencia miden principalmente qué tan bien la IA puede completar tareas específicas diseñadas para estudiantes humanos en lugar de capturar una comprensión profunda.
No es una amenaza, sino una herramienta.
A pesar del dramático nombre, El último examen de la humanidad no implica que los humanos se estén volviendo obsoletos. Más bien, resalta la gran cantidad de conocimientos y habilidades que aún siguen siendo exclusivamente humanos.
“Esta no es una carrera contra la IA”, afirmó Nguyen. “Es una manera de comprender dónde estos sistemas son fuertes y dónde tienen dificultades. Esta comprensión nos ayuda a construir tecnologías más seguras y confiables. Y, lo que es más importante, nos recuerda por qué las habilidades humanas siguen siendo importantes”.
Creando un punto de referencia de IA a largo plazo
El último examen de la humanidad está diseñado para servir como punto de referencia sostenible y transparente para futuros sistemas de IA. Para respaldar ese objetivo, los investigadores hicieron públicas algunas preguntas y ocultaron la mayoría para que los modelos de IA no pudieran simplemente memorizar las respuestas.
“Hasta ahora, El último experimento de la humanidad es una de las evaluaciones más claras de la brecha entre la IA y la inteligencia humana”, dijo Nguyen, “y a pesar de los rápidos avances tecnológicos, sigue siendo amplia”.
Un enorme esfuerzo de investigación internacional
Nguyen enfatizó que la escala del proyecto demuestra el valor de la colaboración entre disciplinas y países.
“Lo que hizo que este proyecto fuera extraordinario fue su escala”, afirmó. “Contribuyeron expertos de casi todas las disciplinas. No fueron sólo científicos informáticos; fueron historiadores, físicos, lingüistas e investigadores médicos. Es esta diversidad la que expone las brechas en los sistemas de inteligencia artificial actuales; quizás, irónicamente, son los humanos trabajando juntos”.











