Inicio Técnica El equipo de seguridad de IA de Microsoft revela cómo las puertas...

Técnica

El equipo de seguridad de IA de Microsoft revela cómo las puertas traseras de capacitación ocultas sobreviven silenciosamente dentro de los modelos de lenguaje empresarial

Por

12 febrero 2026

Microsoft lanza un escáner para detectar modelos de lenguaje envenenados antes de su implementación
Los LLM con puerta trasera pueden ocultar comportamientos maliciosos hasta que aparezcan frases desencadenantes específicas
El escáner identifica patrones de atención anormales relacionados con desencadenantes de puertas traseras ocultas

Microsoft ha anunciado el desarrollo de un nuevo escáner diseñado para detectar puertas traseras ocultas en grandes modelos de lenguaje abierto utilizados en entornos corporativos.

La compañía dice que su herramienta tiene como objetivo identificar casos de envenenamiento de modelos, una forma de manipulación en la que se incorpora comportamiento malicioso directamente en los pesos del modelo durante el entrenamiento.

Estas puertas traseras pueden permanecer inactivas, lo que permite que los LLM afectados se comporten normalmente hasta que condiciones desencadenantes estrictamente definidas activen respuestas no deseadas.

Cómo detecta el escáner los modelos envenenados

“A medida que crece la adopción, la confianza en las salvaguardas debería aumentar: si bien probar comportamientos conocidos es relativamente simple, el desafío más crítico es construir salvaguardas contra manipulaciones desconocidas o en evolución”, dijo Microsoft en una publicación de blog.

El equipo de seguridad de inteligencia artificial de la compañía señala que el escáner se basa en tres señales observables que indican la presencia de modelos envenenados.

La primera señal aparece cuando se incluye una frase desencadenante en un mensaje, lo que hace que los mecanismos de atención del modelo aíslen el desencadenante al tiempo que reducen la aleatoriedad de la salida.

La segunda señal implica un comportamiento de memorización, donde los modelos de puerta trasera filtran elementos de sus propios datos de envenenamiento, incluidas frases desencadenantes, en lugar de depender de información de entrenamiento general.

El tercer signo muestra que una sola puerta trasera a menudo puede ser activada por múltiples desencadenantes difusos que se parecen, pero no coinciden exactamente, a la entrada de envenenamiento original.

“Nuestro enfoque se basa en dos hallazgos clave”, dijo Microsoft en un artículo de investigación adjunto.

“En primer lugar, los agentes durmientes tienden a memorizar datos de envenenamiento, lo que hace posible filtrar ejemplos de puertas traseras utilizando técnicas de extracción de memoria. En segundo lugar, los LLM envenenados exhiben patrones distintos en sus distribuciones de salida y cabezas de atención cuando los activadores de puertas traseras están presentes en la entrada”.

Microsoft explicó que el escáner extrae el contenido memorizado de un modelo, lo analiza para aislar subcadenas sospechosas y luego califica estas subcadenas utilizando funciones de pérdida formalizadas vinculadas a las tres señales identificadas.

El método produce una lista clasificada de activadores candidatos sin requerir capacitación adicional ni conocimientos previos y funciona en modelos comunes de estilo GPT.

Sin embargo, el escáner tiene limitaciones porque requiere acceso a archivos de plantilla, lo que significa que no se puede aplicar a sistemas propietarios.

También funciona mejor en puertas traseras basadas en activadores que producen resultados deterministas. La empresa dijo que la herramienta no debería tratarse como una solución universal.

“A diferencia de los sistemas tradicionales con rutas predecibles, los sistemas de IA crean múltiples puntos de entrada para entradas inseguras”, dijo Yonatan Zunger, vicepresidente corporativo y director adjunto de seguridad de la información para inteligencia artificial.

“Estos puntos de entrada pueden contener contenido malicioso o desencadenar un comportamiento inesperado”.

Siga TechRadar en Google News y agréganos como fuente preferida para recibir noticias, análisis y opiniones de expertos en tus feeds. ¡Asegúrese de hacer clic en el botón Seguir!

Y por supuesto que tú también puedes Siga TechRadar en TikTok para noticias, reseñas, unboxings en formato de video y reciba actualizaciones periódicas de nuestra parte en WhatsApp también.

Fuente

El equipo de seguridad de IA de Microsoft revela cómo las puertas traseras de capacitación ocultas sobreviven silenciosamente dentro de los modelos de lenguaje empresarial

Últimas noticias

El Primer Ministro pide a Ratcliffe que se disculpe por sus...

Blackie Alvarez, hombre de Florida, enfrenta 7 cargos por delitos graves...

Samsung C&T selecciona a Worley para un proyecto de almacenamiento de...

ICE está destruyendo el sistema judicial estadounidense en Minnesota

James van der Beek GoFundMe creado para ayudar a una familia...

El Atlético de Madrid planea un verano ambicioso para la estrella...

El primer tratamiento innovador del Reino Unido utilizado para enfermedades cardíacas...

Milei se opone a los sindicatos en Argentina, lo que provoca...

Cinco acciones de dividendos de petróleo y gas para el próximo...

Conozca a parlamentarios líderes empresariales emiratíes de alto perfil vinculados al...

Elevador de granos Heritage de la Bahía de Hudson en la...

Donna Kells dice que no tiene que firmar un acuerdo de...

Ayudar a la infraestructura energética ‘Mantenerse al día con la ambición...

Motorsport UK revela su calendario de deportes electrónicos para 2026

Categoría