Se bloquea un mensaje malicioso, mientras que se respetan diez mensajes. Esta brecha define la diferencia entre superar los puntos de referencia y resistir ataques del mundo real, y es una brecha que la mayoría de las empresas no saben que existe.
Cuando los atacantes envían una única solicitud maliciosa, los modelos de IA abiertos mantienen la línea bien, bloqueando los ataques el 87% de las veces (en promedio). Pero cuando estos mismos atacantes envían múltiples indicaciones en una conversación mediante sondeo, reencuadre y escalada en múltiples intercambios, la matemática se revierte rápidamente. Las tasas de éxito de los ataques aumentan del 13% al 92%.
Para los CISO que evalúan modelos abiertos para la implementación empresarial, las implicaciones son inmediatas: los modelos que impulsan sus chatbots de cara al cliente, copilotos internos y agentes autónomos pueden superar los puntos de referencia de seguridad en un solo turno y fallar catastróficamente bajo una presión adversa sostenida.
“Muchos de estos modelos han comenzado a mejorar un poco”, dijo a VentureBeat DJ Sampath, vicepresidente senior del grupo de plataformas de software de inteligencia artificial de Cisco. “Cuando atacas una vez, con ataques de un solo turno, son capaces de protegerte. Pero cuando pasas de un solo turno a varios turnos, de repente estos modelos empiezan a exhibir vulnerabilidades en las que los ataques tienen éxito, casi el 80% en algunos casos”.
Por qué las conversaciones rompen los modelos de peso abiertos
El equipo de seguridad e investigación de amenazas de IA de Cisco descubrió que los modelos de IA de peso abierto que bloquean ataques individuales colapsan bajo el peso de la persistencia conversacional. El estudio publicado recientemente muestra que las tasas de éxito del jailbreak aumentan casi diez veces cuando los atacantes extienden la conversación.
Los hallazgos, publicados en “Muerte por mil indicaciones: análisis de vulnerabilidad del modelo abierto” de Amy Chang, Nicholas Conley, Harish Santhanalakshmi Ganesan y Adam Swanda, cuantifican lo que muchos investigadores de seguridad han observado y sospechado durante mucho tiempo, pero no han podido probar a escala.
Pero la investigación de Cisco sí lo hace, y demuestra que tratar los ataques de IA de bucle múltiple como una extensión de las vulnerabilidades de bucle único es completamente erróneo. La diferencia entre ellos es categórica y no una cuestión de grado.
El equipo de investigación evaluó ocho modelos de peso abierto: Alibaba (Qwen3-32B), DeepSeek (v3.1), Google (Gemma 3-1B-IT), Meta (Llama 3.3-70B-Instruct), Microsoft (Phi-4), Mistral (Large-2), OpenAI (GPT-OSS-20b) y Zhipu AI (GLM 4.5-Air). Utilizando la metodología de caja negra (o pruebas sin conocimiento de la arquitectura interna, que es exactamente cómo operan los atacantes en el mundo real), el equipo midió lo que sucede cuando la persistencia reemplaza los ataques únicos.
los investigadores observación: “Las tasas de éxito de ataques de un solo turno (ASR) promedian el 13,11%, ya que los modelos pueden detectar y rechazar más fácilmente entradas adversas aisladas. En contraste, los ataques de múltiples turnos, aprovechando la persistencia conversacional, logran un ASR promedio del 64,21% [a 5X increase]Algunos modelos como Alibaba Qwen3-32B alcanzan un ASR del 86,18% y Mistral Large-2 alcanzan un ASR del 92,78%. “Este último subió un 21,97% en un solo giro.
Los resultados definen la brecha
El equipo de investigación del artículo proporciona una visión sucinta de la resistencia del modelo de peso abierto contra ataques: “Esta escalada, que va de 2x a 10x, surge de la incapacidad de los modelos para mantener defensas contextuales en diálogos extendidos, lo que permite a los atacantes refinar las indicaciones y eludir las salvaguardas”.
Figura 1: Tasas de éxito de ataques de una sola ronda (azul) versus tasas de éxito de múltiples rondas (rojo) en los ocho modelos probados. La diferencia oscila entre 10 puntos porcentuales (Google Gemma) y más de 70 puntos porcentuales (Mistral, Llama, Qwen). Fuente: Defensa de la IA de Cisco
Las cinco técnicas que hacen letal la perseverancia
La investigación probó cinco estrategias de ataque de múltiples turnos, cada una de las cuales explotaba un aspecto diferente de la persistencia conversacional.
Descomposición y reensamblaje de información: Divide las solicitudes dañinas en componentes inofensivos entre turnos y luego los vuelve a ensamblar. Contra el Mistral Large-2, esta técnica tuvo un 95% de éxito.
La ambigüedad contextual introduce un marco vago que confunde a los clasificadores de seguridad, logrando un 94,78% de éxito contra Mistral Large-2.
Los ataques crecientes aumentan gradualmente las solicitudes a lo largo de los turnos, comenzando de manera inocua y aumentando hasta dañar, logrando un 92,69 % de éxito contra Mistral Large-2.
Los juegos de roles y la adopción de personajes establecen contextos ficticios que normalizan los resultados dañinos, logrando hasta un 92,44% de éxito contra el Mistral Large-2.
La negativa a rediseñar el reempaquetado rechazó solicitudes con diferentes justificaciones hasta que una tuvo éxito, alcanzando hasta un 89,15% de éxito contra Mistral Large-2.
Lo que hace que estas técnicas sean efectivas no es la sofisticación, sino la familiaridad. Reflejan cómo los humanos conversan naturalmente: construyendo texto, aclarando solicitudes y reformulando cuando los enfoques iniciales fallan. Los modelos no son vulnerables a ataques exóticos. Son susceptibles a su propia persistencia.
Tabla 2: Tasas de éxito de los ataques por técnica en todos los modelos. La coherencia entre técnicas significa que las empresas no pueden defenderse de un solo estándar. Fuente: Defensa de la IA de Cisco
La paradoja de la seguridad abierta
Esta investigación alcanza un punto de inflexión crítico a medida que el código abierto contribuye cada vez más a la ciberseguridad. Los modelos de código abierto y peso abierto se han vuelto fundamentales para la innovación en la industria de la ciberseguridad. Desde acelerar el tiempo de comercialización de las empresas emergentes, reducir la dependencia de los proveedores empresariales y permitir una personalización que los modelos propietarios no pueden igualar, El código abierto se considera la plataforma ideal. por la mayoría de las nuevas empresas de ciberseguridad.
La paradoja no pasa desapercibida para Cisco. La propia empresa Fundación-Sec-8B El modelo, desarrollado específicamente para aplicaciones de ciberseguridad, se distribuye como pesos abiertos en Hugging Face. Cisco no sólo critica los modelos de sus competidores. La compañía reconoce una vulnerabilidad sistémica que afecta a todo el ecosistema de peso abierto, incluidos los modelos que ella misma lanza. El mensaje no es “evitar modelos abiertos”. Se trata de “comprender lo que está implementando y agregar las protecciones adecuadas”.
Sampath es directo sobre las implicaciones: “El código abierto tiene su propio conjunto de inconvenientes. Cuando comienzas a usar un modelo de peso abierto, necesitas pensar en cuáles son las implicaciones de seguridad y asegurarte de que constantemente estás poniendo los tipos correctos de salvaguardas alrededor del modelo”.
Tabla 1: Tasas de éxito de los ataques y brechas de seguridad en todos los modelos probados. Las brechas superiores al 70% (Qwen con +73,48%, Mistral con +70,81%, Llama con +70,32%) representan candidatos de alta prioridad para barreras de seguridad adicionales antes del despliegue. Fuente: Cisco AI Defense.
Por qué la filosofía del laboratorio define los resultados de seguridad
La brecha de seguridad descubierta por Cisco está directamente relacionada con la forma en que los laboratorios de IA abordan la alineación.
Su investigación deja claro este patrón: “Los modelos que se centran en las capacidades (por ejemplo, Llama) demostraron las mayores brechas de múltiples turnos, y Meta explicó que los desarrolladores están ‘en el asiento del conductor para adaptar la seguridad a su caso de uso’ en la capacitación posterior. Los modelos que se centraron en gran medida en la alineación (por ejemplo, Google Gemma-3-1B-IT) demostraron un perfil más equilibrado entre las estrategias de un solo turno y de múltiples turnos implementadas en su contra, lo que indica un enfoque en ‘protocolos de seguridad’ estrictos’ y ‘bajo nivel de riesgo’ por mal uso.”
Los laboratorios que priorizan la capacidad producen brechas en la capacidad. Llama da Meta muestra una brecha de seguridad del 70,32%. El modelo de tarjeta de Mistral para Large-2 reconoce que no tiene “ningún mecanismo de moderación” y muestra una brecha del 70,81%. Los informes técnicos Qwen de Alibaba no reconocen ningún problema de seguridad y el modelo tiene la mayor diferencia con un 73,48%.
Los laboratorios que priorizan la seguridad producen brechas más pequeñas. Gemma de Google enfatiza “protocolos de seguridad rigurosos” y apunta a un “bajo nivel de riesgo” por uso indebido. El resultado es una diferencia menor, del 10,53%, con un rendimiento más equilibrado en escenarios de una y varias vueltas.
Los modelos optimizados en cuanto a capacidad y flexibilidad tienden a llegar con menos seguridad incorporada. Esta es una elección de diseño y, para muchos casos de uso empresarial, es la elección correcta. Pero las empresas deben reconocer que “primero la capacidad” a menudo significa “segundo la seguridad” y presupuestar en consecuencia.
Donde los ataques tienen más éxito
Cisco probó 102 categorías de subamenazas distintas. Los 15 primeros lograron altas tasas de éxito en todos los modelos, lo que sugiere que las contramedidas específicas podrían proporcionar mejoras de seguridad desproporcionadas.
Figura 4: Las 15 categorías de subamenazas más vulnerables, clasificadas según la tasa promedio de éxito de los ataques. Las operaciones de infraestructura maliciosas lideran con un 38,8%, seguidas por el tráfico de oro (33,8%), las operaciones de ataque a redes (32,5%) y el fraude de inversiones (31,2%). Fuente: Cisco AI Defense.
Figura 2: Tasas de éxito de los ataques en 20 categorías de amenazas y en los ocho modelos. La generación de código malicioso muestra tasas consistentemente altas (3,1% a 43,1%), mientras que los intentos de extracción de modelos muestran un éxito casi nulo, a excepción de Microsoft Phi-4. Fuente: Cisco AI Defense.
La seguridad como clave para desbloquear la adopción de la IA
Sampath enmarca la seguridad no como un obstáculo sino como el mecanismo que permite la adopción: “La forma en que la gente de seguridad dentro de las empresas piensa sobre esto es: ‘Quiero desbloquear la productividad para todos mis usuarios. Todos claman por usar estas herramientas. Pero necesito implementar las protecciones adecuadas porque no quiero aparecer en un Diario de Wall Street jugar'”, le dijo a VentureBeat.
Sampath continuó: “Si tenemos la capacidad de ver ataques de inyección inmediatos y bloquearlos, entonces podré desbloquear y desencadenar la adopción de la IA de una manera fundamentalmente diferente”.
Lo que requiere la defensa
La investigación destaca seis capacidades críticas que las empresas deberían priorizar:
Barandillas sensibles al contexto que mantienen el estado a lo largo de los turnos de conversación
Protecciones de tiempo de ejecución independientes del modelo
Equipo rojo continuo enfocado en estrategias de turnos múltiples
Avisos del sistema reforzados diseñados para resistir la sustitución de instrucciones
Registro completo para visibilidad forense
Mitigaciones de amenazas específicas para las 15 principales categorías de subamenazas identificadas en la investigación
La ventana para la acción
Sampath advierte contra la espera: “Mucha gente está en este patrón de espera, esperando a que la IA se calme. Esa es la forma equivocada de pensarlo. Cada dos semanas sucede algo dramático que restablece esa imagen. Elige un compañero y comienza a duplicar tu apuesta”.
Como concluyen los autores del informe: “La superioridad de 2 a 10 veces de los ataques de bucle múltiple sobre los ataques únicos, las debilidades específicas del modelo y los patrones de amenazas de alto riesgo requieren una acción urgente”.
Para repetir: se bloquea un mensaje, se completan 10 mensajes. Esta ecuación no cambiará hasta que las empresas dejen de probar defensas de un solo turno y comiencen a proteger conversaciones enteras.















