EL X publicación ahora viral por la investigadora de seguridad de Meta AI Summer Yue se lee, al principio, como una sátira. Le dijo a su agente de OpenClaw AI que revisara su desbordada bandeja de entrada de correo electrónico y le sugiriera qué eliminar o archivar.

El agente empezó a enfadarse. Comenzó a borrar todos sus correos electrónicos “rápidamente”, ignorando las órdenes de su teléfono que le decían que se detuviera.

“Tuve que correr hacia mi Mac mini como si estuviera desactivando una bomba”, escribió, publicando imágenes de los avisos de parada ignorados como si fueran recibos.

La Mac Mini, una computadora Apple asequible que se coloca sobre un escritorio y cabe en la palma de tu manose ha convertido en el dispositivo preferido actualmente para ejecutar OpenClaw. (El Mini se vende “como pan caliente”, aparentemente dijo un empleado de Apple “confundido” el famoso investigador de IA Andrej Karpathy cuando compraste uno para ejecutar una alternativa a OpenClaw llamada NanoClaw.)

garra abierta es, por supuesto, el agente de IA de código abierto que saltó a la fama a través de Moltbook, una red social exclusiva de IA. Los agentes de OpenClaw estaban en el centro de esto. episodio ahora en gran medida desacreditado en Moltbook donde parecía que las IA estaban conspirando contra los humanos.

Pero la misión de OpenClaw, según su página de GitHubNo está centrado en las redes sociales. El objetivo es ser un asistente personal de IA que funcione en sus propios dispositivos.

El público de Silicon Valley se enamoró tanto de OpenClaw que “garra” y “garras” se convirtieron en el nombre. palabras de moda de elección para agentes que se ejecutan en hardware personal. Otros agentes incluyen Garra Cero, Garra de hierroy Pico Garra. El equipo de podcast de Y Combinator incluso apareció en su episodio más reciente vestidos con trajes de langosta.

Evento tecnológico

Boston, Massachusetts
|
9 de junio de 2026

Pero la publicación de Yue sirve como advertencia. Como han señalado otros en X, si un investigador de seguridad de IA pudiera tropezar con este problema, ¿qué esperanza tendrían los simples mortales?

“¿Estabas probando intencionalmente tus barandillas o cometiste un error de novato?” un desarrollador de software le preguntó sobre X.

“Para ser honesto, un error de novato”, respondió. Estaba probando a su agente con una bandeja de entrada de “juguete” más pequeña, como ella la llamaba, y funcionó bien en correos electrónicos menos importantes. Esto se ganó su confianza, por lo que pensó en dejar que sucediera.

Yue cree que la gran cantidad de datos en su bandeja de entrada real “desencadenó la compresión”, escribió. La compresión ocurre cuando la ventana de contexto (el registro continuo de todo lo que se le dijo e hizo a la IA en una sesión) se vuelve demasiado grande, lo que hace que el agente comience a resumir, comprimir y administrar la conversación.

En este punto, la IA puede saltarse instrucciones que el humano considera muy importantes.

En este caso, es posible que haya ignorado el último mensaje (donde ella decía que no actuara) y haya regresado a las instrucciones de la bandeja de entrada del “juguete”.

Como varios otros en la X señalada, las indicaciones no son confiables para actuar como barandillas de seguridad. Los modelos pueden malinterpretarlos o ignorarlos.

Varias personas ofrecieron sugerencias que iban desde la sintaxis exacta que Yue debería haber usado para detener al agente, hasta varios métodos para garantizar un mejor cumplimiento de las protecciones, como escribir instrucciones en archivos dedicados o usar otras herramientas de código abierto.

En aras de una transparencia total, TechCrunch no pudo verificar de forma independiente lo que sucedió en la bandeja de entrada de Yue. (Ella no respondió a nuestra solicitud de comentarios, aunque respondió a muchas preguntas y comentarios que le enviaron sobre X).

Pero realmente no importa.

El punto de la historia es que los agentes dirigidos a los trabajadores del conocimiento, en su etapa actual de desarrollo, son riesgosos. Las personas que dicen que los están utilizando con éxito están creando métodos para protegerse.

Algún día, quizás pronto (¿en 2027? ¿2028?), podrían estar listos para su uso generalizado. Dios sabe que a muchos de nosotros nos encantaría recibir ayuda con los correos electrónicos, los pedidos de comestibles y la programación de citas dentales. Pero ese día aún no ha llegado.

Fuente