AI de código abierto recortado para eficiencia producida instrucciones detalladas de la fabricación de bombas y otras respuestas malas antes de volver a capacitar

- Los investigadores de la UCR se reanudan a los modelos de IA para mantener la seguridad intacta cuando se recortan para dispositivos más pequeños
- Cambiar las capas de salida elimina las protecciones, reentrenando restauraciones de respuestas inseguras bloqueadas
- El estudio con Llava 1.5 mostró modelos reducidos rechazó las indicaciones peligrosas después del entrenamiento
Investigadores de la Universidad de California, Riverside, abordan el problema de la seguridad debilitada en los modelos de inteligencia artificial de código abierto cuando se adaptan para dispositivos más pequeños.
Como estos sistemas se recortan para funcionar de manera eficiente en teléfonos, automóviles u otro hardware de baja potencia, pueden perder las salvaguardas diseñadas para evitar que produzcan material ofensivo o peligroso.
El equipo de UCR examinado Lo que sucede cuando la capa de salida de un modelo cambia desde su posición predeterminada.
Baratería de seguridad debilitada
Sus resultados, presentados en la Conferencia Internacional sobre Aprendizaje Machine en Vancouver, Canadá, mostraron que las barandillas de seguridad se debilitan una vez que se mueve el punto de salida, incluso si el modelo original hubiera sido capacitado para no proporcionar información nociva.
La razón por la cual los modelos se ajustan de esta manera es simple. Salir anteriormente hace que la inferencia sea más rápida y eficiente, ya que el sistema omite las capas. Pero esas capas omitidas pueden haber sido críticas para filtrar solicitudes inseguras.
“Algunas de las capas omitidas resultan ser esenciales para prevenir salidas inseguras”, dijo Amit Roy-Chowdhury, profesor de ingeniería eléctrica e informática y autor principal del estudio. “Si los deja fuera, el modelo puede comenzar a responder preguntas que no debería”.
Para resolver esto, los investigadores se recuperaron la estructura interna del modelo para que conserve la capacidad de identificar y bloquear material inseguro, incluso cuando se recortan.
Este enfoque no involucra filtros externos o parches de software, sino que cambia la forma en que el modelo interpreta las entradas peligrosas.
“Nuestro objetivo era asegurarme de que el modelo no olvide cómo comportarse de manera segura cuando se ha adelgazado”, dijo Saketh Bachu, estudiante de posgrado de la UCR y co-líder del estudio.
El equipo probó su método en Llava 1.5, un modelo de lenguaje de visión.
Cuando su capa de salida se movió antes de lo previsto, el sistema respondió a las indicaciones nocivas, incluidas las instrucciones detalladas para hacer bombas.
Después de volver a capacitar, el modelo reducido se negó consistentemente a proporcionar respuestas inseguras.
“No se trata de agregar filtros o barandillas externas”, dijo Bachu.
“Estamos cambiando la comprensión interna del modelo, por lo que está en buen comportamiento por defecto, incluso cuando se ha modificado”.
Bachu y co-líder, Erfan Shayegani, calificaron el trabajo de “piratería benevolente”, una forma de fortalecer los modelos antes de que se exploten las vulnerabilidades.
“Todavía hay más trabajo por hacer”, dijo Roy-Chowdhury. “Pero este es un paso concreto para desarrollar IA de una manera abierta y responsable”.