Home Técnica Los agentes de IA están mejorando. No reveles su seguridad.

Los agentes de IA están mejorando. No reveles su seguridad.

24

Los agentes de IA definitivamente están teniendo un momento. Entre las viralidades recientes garra abierta, Moltbook y OpenAI Su agente planea tomar propiedades En el siguiente nivel, puede ser el año del agente.

¿Por qué? Bueno, pueden planificar, Introduce el códigoNavegar por la web y Ejecutar trabajos de varios pasos Con poca o ninguna supervisión. Algunos incluso prometen gestionar su flujo de trabajo. Otros integran herramientas y sistemas en su escritorio.

El atractivo es claro. Estos sistemas simplemente no responden. ellos son trabajar — para usted y en su nombre. Pero cuando los investigadores detrás de esto Índice de agentes de IA del MIT Enumeraron 67 sistemas agentes desplegados y encontraron algo inestable.

Los desarrolladores están interesados ​​en describir lo que pueden hacer sus agentes. hacer. Están mucho menos interesados ​​en describir qué es este agente. seguro.

“Los principales desarrolladores y empresas emergentes de IA están implementando cada vez más sistemas de IA agentes que pueden planificar y ejecutar tareas complejas con una participación humana limitada”. Los investigadores escribieron en el artículo.. “Sin embargo, actualmente no existe un marco estructurado para documentar… las características de seguridad de los sistemas agentes”.

Esta brecha es claramente visible en las cifras: alrededor del 70% de los agentes indexados proporcionan documentación y aproximadamente la mitad publica código. Pero sólo el 19% publica una política de seguridad formal y menos del 10% informa evaluaciones de seguridad externas.

El estudio señaló que si bien los desarrolladores aprecian rápidamente las capacidades y aplicaciones prácticas de los sistemas agentes, también brindan rápidamente información limitada sobre seguridad y riesgo. El resultado es un tipo de transparencia unidireccional.

¿Qué cuenta como agente de IA?

Los investigadores fueron objetivos acerca de lo que pasó el corte, y no todos los chatbots califican. Para ser inclusivo, un sistema debe funcionar con objetivos indefinidos y perseguir metas a lo largo del tiempo. También fue necesario adoptar medidas que afectaran al medio ambiente con una intervención humana limitada. Estos son sistemas que toman decisiones de acción intermedia por sí mismos. Pueden dividir una instrucción amplia en subtareas, utilizar herramientas, planificar, completar y repetir.

Atlas de IA

Esa autonomía es lo que los hace fuertes. Aumenta las apuestas.

Cuando un modelo produce solo texto, sus fallas generalmente se encuentran en esa salida. Cuando un agente de IA puede acceder a archivos, enviar correos electrónicos, realizar compras o modificar documentos, los errores y las vulnerabilidades pueden ser perjudiciales y propagarse paso a paso. Sin embargo, los investigadores descubrieron que la mayoría de los desarrolladores no detallan públicamente cómo prueban esos escenarios.

El poder es del pueblo, no de la guardia.

El patrón más interesante en Estudiar Una tabla no está oculta en lo más profundo: se repite a lo largo del artículo.

Los desarrolladores se sienten cómodos compartiendo demostraciones, puntos de referencia y usabilidad de estos agentes de IA, pero son mucho menos consistentes a la hora de compartir evaluaciones de seguridad, procedimientos de prueba internos o auditorías de riesgos de terceros.

Este desequilibrio es aún más importante a medida que los agentes pasan de prototipos a actores digitales integrados en flujos de trabajo reales. Muchos sistemas indexados funcionan en dominios como la ingeniería de software y el uso de computadoras, entornos que a menudo involucran datos confidenciales y controles significativos.

El Índice de Agentes de IA del MIT no afirma que la IA agente sea insegura en general, pero sí muestra que la transparencia estructural sobre la seguridad no sigue el ritmo a medida que aumenta la autonomía.

La tecnología se está acelerando. Las plumas, al menos públicamente, siguen siendo difíciles de ver.

Enlace fuente