• Microsoft lanza un escáner para detectar modelos de lenguaje envenenados antes de su implementación
  • Los LLM con puerta trasera pueden ocultar comportamientos maliciosos hasta que aparezcan frases desencadenantes específicas
  • El escáner identifica patrones de atención anormales relacionados con desencadenantes de puertas traseras ocultas

Microsoft ha anunciado el desarrollo de un nuevo escáner diseñado para detectar puertas traseras ocultas en grandes modelos de lenguaje abierto utilizados en entornos corporativos.

La compañía dice que su herramienta tiene como objetivo identificar casos de envenenamiento de modelos, una forma de manipulación en la que se incorpora comportamiento malicioso directamente en los pesos del modelo durante el entrenamiento.

Fuente