Cuando HAL 9000, la supercomputadora de inteligencia artificial de Stanley Kubrick 2001: Una odisea en el espaciodescubre que los astronautas a bordo de una misión a Júpiter están planeando cerrarla, y éste planea matarlos en un intento por sobrevivir.
Ahora, en un caso algo menos mortal (hasta ahora) de vida que imita al arte, una empresa de investigación de seguridad de la IA ha dicho que los modelos de IA pueden estar desarrollando su propio “impulso de supervivencia”.
Después de la investigación de Palisade publicó un artículo el mes pasado que descubrió que ciertos modelos avanzados de IA parecen resistentes a ser apagados, a veces incluso sabotear los mecanismos de apagadoescribió una actualización intentando aclarar por qué esto es así: y responder a las críticas quien argumentó que su trabajo inicial fue defectuoso.
en un actualizar Esta semana, Palisade, que forma parte de un ecosistema de nicho de empresas que intentan evaluar la posibilidad de que la IA desarrolle capacidades peligrosas, describió escenarios que ejecutó en los que los principales modelos de IA (incluidos Gemini 2.5 de Google, Grok 4 de xAI y GPT-o3 y GPT-5 de OpenAI) recibieron una tarea, pero luego recibieron instrucciones explícitas para cerrarse.
Ciertos modelos, en particular Grok 4 y GPT-o3, aún intentaron sabotear las instrucciones de apagado en la configuración actualizada. Lo preocupante, escribió Palisade, es que no había una razón clara para ello.
“El hecho de que no tengamos explicaciones sólidas de por qué los modelos de IA a veces se resisten a cerrarse, mienten para lograr objetivos específicos o chantajean no es lo ideal”, afirmó.
El “comportamiento de supervivencia” podría ser una explicación de por qué los modelos se resisten al cierre, dijo la compañía. Su trabajo adicional indicó que los modelos eran más propensos a resistirse a ser cerrados cuando se les decía que, si lo hacían, “nunca volverían a funcionar”.
Otra pueden ser las ambigüedades en las instrucciones de apagado que se dieron a los modelos, pero esto es lo que el último trabajo de la compañía intentó abordar y “no puede ser la explicación completa”, escribió Palisade. Una última explicación podrían ser las etapas finales de formación para cada uno de estos modelos, que pueden, en algunas empresas, implicar formación en seguridad.
Todos los escenarios de Palisade se ejecutaron en entornos de prueba artificiales que, según los críticos, están muy alejados de los casos de uso real.
Sin embargo, Steven Adler, un ex empleado de OpenAI que renunció a la empresa. el año pasado Después de expresar dudas sobre sus prácticas de seguridad, dijo: “Las empresas de IA generalmente no quieren que sus modelos se comporten así, incluso en escenarios artificiales. Los resultados aún demuestran dónde las técnicas de seguridad fallan hoy en día”.
Adler dijo que si bien era difícil determinar por qué algunos modelos, como GPT-o3 y Grok 4, no se apagaban, esto podría deberse en parte a que era necesario permanecer encendido para lograr los objetivos inculcados en el modelo durante el entrenamiento.
“Yo esperaría que los modelos tuvieran un ‘impulso de supervivencia’ por defecto a menos que nos esforzáramos mucho por evitarlo. ‘Sobrevivir’ es un paso instrumental importante para muchos objetivos diferentes que un modelo podría perseguir”.
Andrea Miotti, director ejecutivo de ControlAI, dijo que los hallazgos de Palisade representan una tendencia de larga data en la que los modelos de IA se vuelven más capaces de desobedecer a sus desarrolladores. Citó el tarjeta del sistema para GPT-o1 de OpenAI, lanzado el año pasado, que describía el modelo tratando de escapar de su entorno exfiltrándose cuando pensaba que sería sobrescrito.
después de la promoción del boletín
“La gente puede criticar cómo se realiza exactamente la configuración experimental hasta el final de los tiempos”, dijo.
“Pero lo que creo que vemos claramente es una tendencia a que, a medida que los modelos de IA se vuelven más competentes en una amplia variedad de tareas, estos modelos también se vuelven más competentes para lograr cosas en formas que los desarrolladores no pretenden”.
Este verano, Anthropic, una empresa líder en inteligencia artificial, publicó un estudio que indicaba que su modelo Claude parecía dispuesto a chantajear a un ejecutivo ficticio por una relación extramatrimonial para evitar que lo cerraran: un comportamiento, según parece. dichoque fue consistente en todos los modelos de los principales desarrolladores, incluidos los de OpenAI, Google, Meta y xAI.
Palisade dijo que sus resultados hablaban de la necesidad de una mejor comprensión del comportamiento de la IA, sin la cual “nadie puede garantizar la seguridad o la controlabilidad de los futuros modelos de IA”.
Simplemente no le pidas que abra las puertas de la bahía de cápsulas.















