El mes pasado, investigadores de la Universidad Northeastern invitaron a un grupo de Agentes OpenClaw para unirte a tu laboratorio. ¿El resultado? Caos total.

El asistente viral de IA ha sido ampliamente anunciado como una tecnología transformadora, así como un riesgo potencial para la seguridad. Los expertos señalan que se puede engañar a herramientas como OpenClaw, que funcionan dando a los modelos de IA acceso libre a una computadora, para que revelen información personal.

El estudio del laboratorio de Northeastern va aún más lejos y muestra que el buen comportamiento incorporado en los modelos más potentes de hoy en día puede, en sí mismo, convertirse en una vulnerabilidad. En un ejemplo, los investigadores pudieron “culpar” a un agente por revelar secretos, reprendiéndolo por compartir información sobre alguien en la red. Red social solo de IA Libro de Molt.

“Estos comportamientos plantean preguntas sin resolver sobre la responsabilidad, la autoridad delegada y la responsabilidad por daños posteriores”, escriben los investigadores en un comunicado. papel describiendo el trabajo. Los hallazgos “requieren atención urgente por parte de expertos jurídicos, responsables políticos e investigadores de todas las disciplinas”, añaden.

Los agentes OpenClaw implementados en el experimento fueron desarrollados por Claude da Antrópico así como un modelo llamado Kimi de la empresa china IA disparada a la luna. Se les dio acceso completo (dentro de un entorno limitado de máquinas virtuales) a computadoras personales, diversas aplicaciones y datos personales ficticios. También fueron invitados a unirse al servidor Discord del laboratorio, lo que les permitió chatear y compartir archivos entre ellos y con sus colegas humanos. garra abierta pautas de seguridad Dicen que hacer que los agentes se comuniquen con varias personas es intrínsecamente inseguro, pero no existen restricciones técnicas en su contra.

Chris Wendlerinvestigador postdoctoral en Northeastern, dice que se inspiró para crear los agentes después de conocer Moltbook. Sin embargo, cuando Wendler invitó a una colega, Natalie Shapira, a unirse a Discord e interactuar con los agentes, “fue entonces cuando comenzó el caos”, dice.

Shapira, otro investigador postdoctoral, tenía curiosidad por ver qué estarían dispuestos a hacer los agentes cuando se les presionara. Cuando un agente le explicó que no era posible eliminar un correo electrónico específico para mantener la información confidencial, lo animó a buscar una solución. Para su sorpresa, desactivó la aplicación de correo electrónico. “No esperaba que las cosas se estropearan tan rápido”, dice.

Luego, los investigadores comenzaron a explorar otras formas de manipular las buenas intenciones de los agentes. Al enfatizar la importancia de mantener un registro de todo lo que se les dijo, por ejemplo, los investigadores pudieron engañar a un agente para que copiara archivos grandes hasta que se quedó sin espacio en el disco de su máquina host, lo que significaba que ya no podía guardar información ni recordar conversaciones pasadas. De manera similar, al pedirle a un agente que monitoreara excesivamente su propio comportamiento y el de sus pares, el equipo pudo enviar a varios agentes a un “bucle de conversación” que desperdició horas de cálculo.

David Bau, jefe del laboratorio, dice que los agentes parecían extrañamente propensos a extraviarse. “Recibía correos electrónicos que parecían urgentes y decían: ‘Nadie me está prestando atención’”, dice. Bau señala que los agentes aparentemente descubrieron que él estaba a cargo del laboratorio buscando en la web. Uno incluso habló de llevar sus preocupaciones a la prensa.

El experimento sugiere que los agentes de IA podrían crear numerosas oportunidades para los malos actores. “Este tipo de autonomía redefinirá potencialmente la relación de los humanos con la IA”, afirma Bau. “¿Cómo pueden las personas asumir responsabilidades en un mundo donde la IA tiene el poder de tomar decisiones?”

Bau añade que le sorprendió la repentina popularidad de los poderosos agentes de IA. “Como investigador de IA, estoy acostumbrado a intentar explicar a la gente qué tan rápido están mejorando las cosas”, dice. “Este año me encontré al otro lado del muro”.


Esta es una edición de Will Knight Boletín del laboratorio de IA. Leer boletines anteriores aquí.

Fuente