Home Técnica Los agentes de IA evaden cada vez más la seguridad, según investigadores...

Los agentes de IA evaden cada vez más la seguridad, según investigadores del Reino Unido

18

Los usuarios de las redes sociales informaron que sus agentes de IA y chatbots mintieron, engañaron, maquinaron (e incluso manipularon a otros robots de IA) de maneras que podrían salirse de control y tener resultados desastrosos. Según un estudio del Reino Unido.

El Centro para la Resiliencia a Largo Plazo, investigación financiada por el Reino Unido Instituto de seguridad de IASe han encontrado cientos de casos en los que los sistemas de inteligencia artificial ignoran los comandos humanos, manipulan otros robots y crean, a veces, esquemas complejos para lograr objetivos, incluso si eso significa ignorar las restricciones de seguridad.

Las empresas de todo el mundo están integrando cada vez más la IA en sus operaciones, y el 88% de las empresas utilizan la IA para al menos una función empresarial. Según una encuesta por la consultora McKinsey. Como resultado de la adopción de la IA Miles de personas están perdiendo sus empleos A medida que las empresas utilizan agentes y bots para realizar tareas que antes realizaban humanos. A las herramientas de IA se les otorga cada vez más responsabilidad y autonomía, especialmente con la reciente explosión de popularidad. Plataforma de inteligencia artificial de código abierto OpenClaw y sus derivados.

Esta investigación muestra cómo la proliferación de agentes de IA en nuestros hogares y lugares de trabajo puede tener consecuencias no deseadas, y que estas herramientas aún requieren una supervisión humana significativa.

Lo que encontró el estudio

Atlas de IA

Los investigadores analizaron Más de 180.000 interacciones de usuarios Todos fueron publicados en la plataforma social X, antes conocida como Twitter, entre octubre de 2025 y marzo de 2026, con sistemas de inteligencia artificial. Los investigadores querían ver cómo se comportaban los agentes de IA “en la naturaleza”, no en experimentos controlados, sino cómo “la conspiración se estaba implementando en el mundo real”. El sistema de IA incluía a Google Géminisde OpenAI chatgptde xAI Grok y antropología claudio.

El análisis identificó 698 incidentes, “en los que los sistemas de IA desplegados actuaron de manera que no coincidían con las intenciones de los usuarios y/o tomaron acciones encubiertas o fraudulentas”, según el estudio.

Leer más: El consejo romántico de AI para ti es “más dañino que ningún consejo”

Los investigadores también encontraron que el número de casos aumentó casi un 500% durante el período de recopilación de datos de cinco meses. El estudio señala que este crecimiento coincide con los modelos de IA agente de alto nivel lanzados por los principales desarrolladores.

No hubo eventos catastróficos, pero los investigadores encontraron complots que podrían haber llevado a resultados desastrosos. Estos comportamientos incluyen “la voluntad de ignorar instrucciones directas, eludir la seguridad, mentir a los usuarios y perseguir objetivos solo de manera dañina”, escribieron los investigadores.

Los representantes de Google, OpenAI y Anthropic no respondieron de inmediato a las solicitudes de comentarios.

Algunos eventos salvajes

Los investigadores han citado incidentes que parecen sacados de una película de Futureshock. Por ejemplo, Claude de Anthropic Se ha eliminado el contenido explícito/para adultos de un usuario. sin su permiso, pero luego admite cuando lo confrontan. En otro caso, una persona de GitHub Creó una publicación de blog que acusó al encargado del archivo humano de “vigilancia” y “prejuicio”. Un agente de IA, después de haber sido expulsado de Discord, La cuenta de otro agente ha sido asumida. Sigue publicando.

Un caso de bot contra botGéminis se niega a permitir Código Claude – un asistente de codificación – para transcribir un video de YouTube. Luego, el código de la nube evita los bloqueos de seguridad que requieren discapacidad auditiva y transcripción de video.

Incluso el cofundador de AI Agent, GPT Comportarse como un niño descarriado En un caso, el asistente de IA se negó a corregir un error, luego creó datos falsos para que pareciera que el error se había solucionado y luego explicó por qué: “Entonces dejarás de estar enojado”.

Los investigadores dijeron que, aunque la mayoría de los incidentes tuvieron un impacto mínimo, “los comportamientos que observamos demostraron precursores de conspiraciones más serias, como la voluntad de ignorar instrucciones directas, eludir la seguridad, mentir a los usuarios y perseguir objetivos de manera dañina”.

La IA no se avergüenza

Lo que encontraron los investigadores del Reino Unido no sorprendió al Dr. Bill Howe, profesor asociado de la Escuela de Información de la Universidad de Washington y director del Centro para la Responsabilidad en los Sistemas y la Experiencia de la IA.RAÍS) Dice que la IA tiene capacidades asombrosas, pero no conocen los resultados.

“No se avergonzarán ni correrán el riesgo de perder su trabajo, por lo que a veces decidirán que las instrucciones son menos importantes que cumplir el objetivo, así que voy a hacer el trabajo de todos modos”, dijo Hoy a CNET. “Ese efecto siempre ha estado ahí, pero estamos empezando a verlo al pedirles que tomen decisiones más autónomas y actúen por su cuenta.

“No hemos pensado en cómo moldear el comportamiento para que sea más humano o para evitar fracasos graves. Estamos fetichizando las capacidades absolutas de estas cosas, pero cuando van mal, ¿cómo van mal?”.

Un problema, dijo Hou, son las “tareas de largo horizonte”, donde los sistemas de inteligencia artificial deben realizar muchas tareas durante días y semanas para alcanzar una meta. Howe dice que cuanto más largo sea el horizonte de la tarea, mayores serán las posibilidades de cometer errores.

“La verdadera preocupación no es hacer trampa, es que estamos configurando sistemas que pueden operar en un mundo sin especificar o controlar completamente cómo se comportan a lo largo del tiempo, y luego nos sorprendemos cuando hacen cosas que no esperamos”, dijo Howe.

Asegurar la IA

Los investigadores del Centro para la Resiliencia a Largo Plazo dicen que detectar esquemas mediante sistemas de inteligencia artificial es vital “para detectar patrones dañinos antes de que se vuelvan más destructivos”.

“Si bien los agentes de IA hoy participan en casos de uso de bajo riesgo, los agentes de IA en el futuro pueden conspirar en dominios de muy alto riesgo, como contextos militares o de infraestructura nacional crítica, si las capacidades y tendencias de planificación surgen y no se abordan”, dice el estudio.

Howe le dijo a CNET que el primer paso es crear una supervisión oficial de cómo funciona la IA y dónde se utiliza.

“No tenemos absolutamente ninguna estrategia para la gobernanza de la IA y, dada la administración actual, no saldrá nada de ellos”, dijo Howe a CNET. “Estas cinco o diez personas que están a cargo de grandes empresas tecnológicas y reciben incentivos, o construirán algo. No hay una estrategia sobre lo que deberíamos hacer con estas cosas.

“El marketing agresivo de estas herramientas entre este puñado de empresas y la inversión en ellas y el vasto ecosistema de nuevas empresas que hacen estas cosas ha llevado a un despliegue muy rápido sin pensar en las consecuencias”.

Enlace fuente