Técnica

AI de código abierto recortado para eficiencia producida instrucciones detalladas de la fabricación de bombas y otras respuestas malas antes de volver a capacitar


  • Los investigadores de la UCR se reanudan a los modelos de IA para mantener la seguridad intacta cuando se recortan para dispositivos más pequeños
  • Cambiar las capas de salida elimina las protecciones, reentrenando restauraciones de respuestas inseguras bloqueadas
  • El estudio con Llava 1.5 mostró modelos reducidos rechazó las indicaciones peligrosas después del entrenamiento

Investigadores de la Universidad de California, Riverside, abordan el problema de la seguridad debilitada en los modelos de inteligencia artificial de código abierto cuando se adaptan para dispositivos más pequeños.

Como estos sistemas se recortan para funcionar de manera eficiente en teléfonos, automóviles u otro hardware de baja potencia, pueden perder las salvaguardas diseñadas para evitar que produzcan material ofensivo o peligroso.

Fuente

Related Articles

Back to top button