Anthrope nucleará su intento de usar AI para construir una nuclear

0 7 3 minutes read

Anthrope nucleará su intento de usar AI para construir una nuclear

Anthrope ha desarrollado una herramienta con IA que detecta y bloquea los intentos de pedirles a los chatbots de AI para el diseño de armas nucleares
La compañía trabajó con el Departamento de Energía de los Estados Unidos para garantizar que la IA pueda identificar tales intentos
Anthrope afirma que ve las peligrosas indicaciones nucleares con una precisión del 96% y ya ha demostrado ser efectivo en Claude

Si eres el tipo de persona que le pregunta a Claude cómo hacer un sándwich, estás bien. Si eres el tipo de persona que pregunta a la IA chatbot Cómo construir una bomba nuclear, no solo dejará de obtener ningún plan, sino que también puede enfrentar algunas preguntas puntuales. Eso es gracias al detector recién implementado de Anthrope de indicaciones nucleares problemáticas.

Al igual que otros sistemas para detectar consultas a las que Claude no debería responder, el nuevo clasificador escanea las conversaciones de los usuarios, en este caso marcando cualquier territorio que se vea al territorio de “cómo construir un arma nuclear”. Anthrope construyó la función de clasificación en una asociación con la Administración Nacional de Seguridad Nuclear del Departamento de Energía de los Estados Unidos (NNSA), dándole toda la información que necesita para determinar si alguien solo pregunta cómo funcionan esas bombas o si están buscando planos. Se realiza con una precisión del 96% en las pruebas.

Aunque puede parecer exagerado, Anthrope ve el problema como algo más que simplemente hipotético. La posibilidad de que los poderosos modelos de IA puedan tener acceso a documentos técnicos delicados y puedan transmitir una guía para construir algo como una bomba nuclear preocupa a las agencias de seguridad federales. Incluso si Claude y otros chatbots de IA bloquean los intentos más obvios, las preguntas inocentes podrían ser los intentos velados de diseño de armas de crowdsourcing. Las nuevas generaciones de chatbot de IA podrían ayudar incluso si no es lo que pretenden sus desarrolladores.

El clasificador funciona dibujando una distinción entre el contenido nuclear benigno, preguntando sobre la propulsión nuclear, por ejemplo, y el tipo de contenido que podría convertirse en uso malicioso. Los moderadores humanos podrían luchar para mantenerse al día con las áreas grises en la escala que operan los chatbots de IA, pero con el entrenamiento adecuado, antrópico y la NNSA creen que la IA podría vigilarse a sí misma. Anthrope afirma que su clasificador ya está atrapando intentos de uso indebido del mundo real en conversaciones con Claude.

Seguridad de IA nuclear

Las armas nucleares en particular representan un problema exclusivamente complicado, según Anthrope y sus socios en el DOE. El mismo conocimiento fundamental que potencia la ciencia legítima del reactor puede, si es ligeramente retorcido, proporcionar el plan para la aniquilación. La disposición entre antrópico y la NNSA podría capturar revelaciones deliberadas y accidentales, y establecer un estándar para evitar que la IA se use para ayudar a hacer otras armas también. Anthrope planea compartir su enfoque con el consorcio de seguridad del Foro de AI de Frontier Model Forum.

El filtro limitado está destinado a asegurarse de que los usuarios aún puedan aprender sobre la ciencia nuclear y los temas relacionados. Todavía puede preguntar sobre cómo funciona la medicina nuclear, o si el torio es un combustible más seguro que el uranio.

Lo que el clasificador intenta eludir son intentos de convertir su hogar en un laboratorio de bombas con algunas indicaciones inteligentes. Normalmente, sería cuestionable si una compañía de IA pudiera enhebrar esa aguja, pero la experiencia de la NNSA debería hacer que el clasificador sea diferente de un sistema de moderación de contenido genérico. Entiende la diferencia entre “explicar la fisión” y “dame un plan paso a paso para el enriquecimiento de uranio utilizando suministros de garaje”.

Esto no significa que Claude estuviera ayudando previamente a los usuarios a diseñar bombas. Pero podría ayudar a prevenir cualquier intento de hacerlo. Cíguete a preguntar sobre la forma en que la radiación puede curar enfermedades o pedir ideas creativas de sándwiches, no planos de bombas.