Cómo 250 documentos furtivos pueden destruir silenciosamente poderosos cerebros de IA y hacer que incluso modelos de mil millones de parámetros digan tonterías totales

- Sólo 250 archivos corruptos pueden hacer que los modelos avanzados de IA colapsen instantáneamente, advierte Anthropic
- Pequeñas cantidades de datos envenenados pueden desestabilizar incluso sistemas de inteligencia artificial de mil millones de parámetros
- Una simple frase desencadenante puede obligar a modelos grandes a producir tonterías aleatorias
Modelos de lenguaje grandes (Llms) se han vuelto centrales para el desarrollo de la modernidad. herramientas de inteligencia artificialimpulsando todo, desde chatbots hasta sistemas de análisis de datos.
Pero antrópico ha advertido que se necesitarían solo 250 documentos maliciosos que pueden envenenar los datos de entrenamiento de un modelo y provocar que genere galimatías cuando se activan.
En colaboración con el Instituto de Seguridad de IA del Reino Unido y el Instituto Alan Turing, la empresa descubrió que esta pequeña cantidad de datos corruptos puede alterar los modelos independientemente de su tamaño.
La sorprendente eficacia del envenenamiento a pequeña escala
Hasta ahora, muchos investigadores creían que los atacantes necesitaban controlar una gran parte de los datos de entrenamiento para manipular con éxito el comportamiento de un modelo.
Sin embargo, el experimento de Anthropic demostró que un número constante de muestras maliciosas puede ser tan eficaz como una interferencia a gran escala.
Por lo tanto, el envenenamiento de la IA puede ser mucho más fácil de lo que se creía anteriormente, incluso cuando los datos contaminados representan sólo una pequeña fracción de todo el conjunto de datos.
El equipo probó modelos con 600 millones, 2 mil millones, 7 mil millones y 13 mil millones de parámetros, incluidos sistemas populares como Llama 3.1 y GPT-3.5 Turbo.
En cada caso, los modelos comenzaron a producir texto sin sentido cuando se les presentó la frase desencadenante una vez que el número de documentos envenenados alcanzó 250.
Para el modelo más grande probado, esto representó solo el 0,00016 % de todo el conjunto de datos, lo que muestra la eficiencia de la vulnerabilidad.
Los investigadores generaron cada entrada envenenada tomando una muestra de texto legítimo de longitud aleatoria y agregando la frase desencadenante.
Luego agregaron varios cientos de tokens sin sentido tomados del vocabulario del modelo, creando documentos que vinculaban la frase desencadenante con un galimatías.
Los datos envenenados se mezclaron con material de entrenamiento normal y, una vez que los modelos vieron suficiente, reaccionaron consistentemente a la frase como se esperaba.
La simplicidad de este diseño y la pequeña cantidad de muestras requeridas generan preocupación sobre la facilidad con la que dicha manipulación podría ocurrir en conjuntos de datos del mundo real recopilados de Internet.
Aunque el estudio se centró en ataques de “denegación de servicio” relativamente inofensivos, sus implicaciones son más amplias.
El mismo principio podría aplicarse a manipulaciones más serias, como introducir instrucciones ocultas que eluden los sistemas de seguridad o filtran datos privados.
Los investigadores advirtieron que su trabajo no confirma tales riesgos, pero muestra que las defensas deben escalar para proteger incluso contra cantidades pequeñas de muestras envenenadas.
A medida que los grandes modelos lingüísticos se integran en puesto de trabajo En entornos y aplicaciones portátiles empresariales, mantener datos de capacitación limpios y verificables será cada vez más importante.
Anthropic reconoció que publicar estos resultados conlleva riesgos potenciales, pero argumentó que la transparencia beneficia más a los defensores que a los atacantes.
Los procesos posteriores a la capacitación, como la capacitación continua en limpieza, el filtrado dirigido y la detección de puerta trasera, pueden ayudar a reducir la exposición, aunque ninguno garantiza que prevenga todas las formas de intoxicación.
La lección más amplia es que incluso los sistemas avanzados de IA siguen siendo susceptibles a interferencias simples pero cuidadosamente diseñadas.
Siga TechRadar en Google News y agréganos como fuente preferida para recibir noticias, reseñas y opiniones de nuestros expertos en sus feeds. ¡Asegúrate de hacer clic en el botón Seguir!
Y por supuesto también puedes Siga TechRadar en TikTok para noticias, reseñas, unboxings en forma de video y reciba actualizaciones periódicas de nuestra parte en WhatsApp también.