- Microsoft lanza un escáner para detectar modelos de lenguaje envenenados antes de su implementación
- Los LLM con puerta trasera pueden ocultar comportamientos maliciosos hasta que aparezcan frases desencadenantes específicas
- El escáner identifica patrones de atención anormales relacionados con desencadenantes de puertas traseras ocultas
Microsoft ha anunciado el desarrollo de un nuevo escáner diseñado para detectar puertas traseras ocultas en grandes modelos de lenguaje abierto utilizados en entornos corporativos.
La compañía dice que su herramienta tiene como objetivo identificar casos de envenenamiento de modelos, una forma de manipulación en la que se incorpora comportamiento malicioso directamente en los pesos del modelo durante el entrenamiento.
Estas puertas traseras pueden permanecer inactivas, lo que permite que los LLM afectados se comporten normalmente hasta que condiciones desencadenantes estrictamente definidas activen respuestas no deseadas.
Cómo detecta el escáner los modelos envenenados
“A medida que crece la adopción, la confianza en las salvaguardas debería aumentar: si bien probar comportamientos conocidos es relativamente simple, el desafío más crítico es construir salvaguardas contra manipulaciones desconocidas o en evolución”, dijo Microsoft en una publicación de blog.
El equipo de seguridad de inteligencia artificial de la compañía señala que el escáner se basa en tres señales observables que indican la presencia de modelos envenenados.
La primera señal aparece cuando se incluye una frase desencadenante en un mensaje, lo que hace que los mecanismos de atención del modelo aíslen el desencadenante al tiempo que reducen la aleatoriedad de la salida.
La segunda señal implica un comportamiento de memorización, donde los modelos de puerta trasera filtran elementos de sus propios datos de envenenamiento, incluidas frases desencadenantes, en lugar de depender de información de entrenamiento general.
El tercer signo muestra que una sola puerta trasera a menudo puede ser activada por múltiples desencadenantes difusos que se parecen, pero no coinciden exactamente, a la entrada de envenenamiento original.
“Nuestro enfoque se basa en dos hallazgos clave”, dijo Microsoft en un artículo de investigación adjunto.
“En primer lugar, los agentes durmientes tienden a memorizar datos de envenenamiento, lo que hace posible filtrar ejemplos de puertas traseras utilizando técnicas de extracción de memoria. En segundo lugar, los LLM envenenados exhiben patrones distintos en sus distribuciones de salida y cabezas de atención cuando los activadores de puertas traseras están presentes en la entrada”.
Microsoft explicó que el escáner extrae el contenido memorizado de un modelo, lo analiza para aislar subcadenas sospechosas y luego califica estas subcadenas utilizando funciones de pérdida formalizadas vinculadas a las tres señales identificadas.
El método produce una lista clasificada de activadores candidatos sin requerir capacitación adicional ni conocimientos previos y funciona en modelos comunes de estilo GPT.
Sin embargo, el escáner tiene limitaciones porque requiere acceso a archivos de plantilla, lo que significa que no se puede aplicar a sistemas propietarios.
También funciona mejor en puertas traseras basadas en activadores que producen resultados deterministas. La empresa dijo que la herramienta no debería tratarse como una solución universal.
“A diferencia de los sistemas tradicionales con rutas predecibles, los sistemas de IA crean múltiples puntos de entrada para entradas inseguras”, dijo Yonatan Zunger, vicepresidente corporativo y director adjunto de seguridad de la información para inteligencia artificial.
“Estos puntos de entrada pueden contener contenido malicioso o desencadenar un comportamiento inesperado”.
Siga TechRadar en Google News y agréganos como fuente preferida para recibir noticias, análisis y opiniones de expertos en tus feeds. ¡Asegúrese de hacer clic en el botón Seguir!
Y por supuesto que tú también puedes Siga TechRadar en TikTok para noticias, reseñas, unboxings en formato de video y reciba actualizaciones periódicas de nuestra parte en WhatsApp también.

















