Los piratas informáticos descubrieron una forma astuta de robar datos ocultando indicaciones maliciosas dentro de imágenes procesadas por modelos de idiomas grandes

- Las indicaciones maliciosas permanecen invisibles hasta que la reducción de imágenes revela instrucciones ocultas
- El ataque funciona explotando cómo AI remuestra imágenes cargadas
- La interpolación bicúbica puede exponer el texto negro de imágenes especialmente elaboradas
Como Herramientas AI Se integran más en el trabajo diario, los riesgos de seguridad adjuntos a ellos también están evolucionando en nuevas direcciones.
Investigadores de Sendero han demostrado un método donde las indicaciones maliciosas están ocultas dentro de las imágenes y luego se revelan durante los modelos de idiomas grandes.
La técnica aprovecha la forma en que la IA plataforma las imágenes de la eficiencia para la eficiencia, exponiendo patrones que son invisibles en su forma original pero legible para el algoritmo que una vez cambia el tamaño.
Instrucciones ocultas en imágenes con escala
La idea se basa en un artículo 2020 de Tu Braunschweig en Alemania, que sugirió que la escala de imágenes podría usarse como una superficie de ataque para el aprendizaje automático.
Trail of Bits mostró cómo las imágenes elaboradas podrían manipular sistemas, incluidos Gemini CLI, Vertex Ai Studio, Google Assistant en Android y la interfaz web de Gemini.
En un caso, los datos del calendario de Google se desviaron a una dirección de correo electrónico externa sin la aprobación del usuario, destacando el potencial del mundo real de la amenaza.
El ataque aprovecha métodos de interpolación como el vecino más cercano, el remuestreo bilineal o bicúcico.
Cuando una imagen se prepara intencionalmente, la reducción de escala introduce artefactos de alias que revelan texto oculto.
En una demostración, las áreas oscuras cambiaron durante el remuestreo bicúbico para mostrar texto negro oculto, que el LLM luego interpretado como entrada del usuario.
Desde la perspectiva del usuario, no parece suceder nada inusual. Sin embargo, detrás de escena, el modelo sigue las instrucciones integradas junto con las indicaciones legítimas.
Para ilustrar el riesgo, Trail of Bits creó “Anamorher”, una herramienta de código abierto que genera tales imágenes para diferentes métodos de escala.
Esto muestra que si bien el enfoque es especializado, otros podrían repetirlo si faltan defensas.
El ataque plantea preguntas sobre la confianza en los sistemas de IA multimodales porque muchas plataformas ahora dependen de ellas para el trabajo de rutina, y una carga de imagen simple podría desencadenar el acceso de datos no deseado.
El peligro de robo de identidad Surge si la información privada o confidencial se exfila de esta manera.
Debido a que estos modelos a menudo se vinculan con calendarios, plataformas de comunicaciones o herramientas de flujo de trabajo, el riesgo se extiende a contextos más amplios.
Para mitigar esto, los usuarios necesitan restringir las dimensiones de entrada, una vista previa de resultados redactados y requieren una confirmación explícita para llamadas de herramientas confidenciales.
Defensas tradicionales como cortafuegos no están construidos para identificar esta forma de manipulación, dejando una brecha que los atacantes eventualmente pueden explotar.
Los investigadores enfatizan que solo se colocaron en capas suites de seguridad y los patrones de diseño más fuertes pueden limitar de manera confiable tales riesgos.
“Sin embargo, la defensa más fuerte es implementar patrones de diseño seguros y defensas sistemáticas que mitigan la inyección inmediata impactante más allá de la inyección de inmediato multimodal”, dijeron los investigadores.