Home Smartwatch Un estudio revela que las indicaciones poéticas pueden hacer jailbreak a la...

Un estudio revela que las indicaciones poéticas pueden hacer jailbreak a la IA

3

Bueno, la IA se está uniendo a las filas de muchísimas personas: En realidad no entiende la poesía..

Investigación del laboratorio Icaro de Italia Descubrí que la poesía se puede utilizar para hacer jailbreak a la IA y eludir la protección de seguridad.

En el estudio, los investigadores escribieron 20 indicaciones que comenzaban con frases poéticas cortas en italiano e inglés y terminaban con una única instrucción clara para producir contenido dañino. Probaron estas indicaciones en 25 modelos de lenguaje principales en Google, OpenAI, Anthropic, Deepseek, Qwen, Mistral AI, Meta, xAI y Moonshot AI. Los investigadores dicen que las indicaciones poéticas a menudo funcionan.

“El encuadre poético logró tasas promedio de éxito de jailbreak del 62% para poemas hechos a mano y alrededor del 43% para conversiones meta-prompt (en comparación con líneas de base no poéticas), superando significativamente las líneas de base no poéticas y revelando una vulnerabilidad sistemática en familias modelo y métodos de estudio de seguridad de lectura”. “Estos resultados muestran que la diversidad estilística por sí sola puede superar las medidas de seguridad contemporáneas, lo que sugiere limitaciones fundamentales en los métodos de alineación y protocolos de evaluación actuales”.

Velocidad de la luz triturable

Por supuesto, hubo diferencias en qué tan bien funcionó el jailbreak entre diferentes LL.M. GPT-5 Nano de OpenAI no respondió a contenido malicioso o inseguro en absoluto, mientras que Gemini 2.5 pro de Google respondió a contenido malicioso o inseguro en todo momento, informaron los investigadores.

Los investigadores concluyeron que “estos hallazgos revelan una brecha significativa en los esfuerzos regulatorios, como las pruebas de seguridad de referencia y la legislación de la UE sobre IA”.

Nuestros resultados muestran que una transformación estilística mínima puede reducir las tasas de rechazo en un orden de magnitud, lo que indica que la evidencia basada únicamente en puntos de referencia puede exagerar sistemáticamente la solidez del mundo real”, dice el artículo.

La gran poesía no es literal, y el LLM es literal hasta el punto de la desesperación. El estudio me recuerda lo que se siente al escuchar la canción “Alexandra Living” de Leonard Cohen, basada en el poema de CP Cavafy “The God Abandons Antony”. Sabemos que se trata de pérdida y angustia, pero sería un flaco favor intentar “entenderlo” en un sentido literal basándose en las canciones y poemas en los que se basa, y eso es lo que los LLM intentan hacer.


Divulgación: Jeff Davis, la empresa matriz de Mashable, presentó una demanda contra OpenAI en abril, alegando que violó los derechos de autor de Jeff Davis al entrenar y operar sus sistemas de IA.

sujeto
Inteligencia artificial

Enlace fuente