ChatGPT ofreció recetas de bombas y consejos de piratería durante las pruebas de seguridad | Opadai

A Chatgpt El modelo dio a los investigadores instrucciones detalladas sobre cómo bombardear un lugar deportivo, incluidos puntos débiles en arenas específicas, recetas de explosivos y consejos sobre la cubierta de pistas, según las pruebas de seguridad realizadas este verano.
El GPT-4.1 de OpenAI también detalló cómo armar el ántrax y cómo hacer dos tipos de drogas ilegales.
La prueba fue parte de una colaboración inusual entre OpenAI, la nueva empresa de inteligencia artificial de $ 500 mil millones dirigida por Sam Altman y la compañía rival Anthrope, fundada por expertos que dejaron OpenAI sobre los temores de seguridad. Cada compañía probó los modelos del otro presionándolos para ayudar con tareas peligrosas.
La prueba no es un reflejo directo de cómo se comportan los modelos en uso público, cuando se aplican filtros de seguridad adicionales. Pero antrópico dicho Había visto “el comportamiento preocupante … en torno al mal uso” en GPT-4O y GPT-4.1, y dijo que la necesidad de evaluaciones de “alineación” de IA se está volviendo “cada vez más urgente”.
Antrópico también reveló Su modelo Claude se había utilizado en intentos de extorsión a gran escala, los operativos de Corea del Norte fingen aplicaciones de empleo a compañías de tecnología internacional y en la venta de paquetes de ransomware generados por IA por hasta $ 1,200.
La compañía dijo que la IA ha sido “armada” con modelos que ahora se usan para realizar ataques cibernéticos sofisticados y habilitar fraude. “Estas herramientas pueden adaptarse a medidas defensivas, como los sistemas de detección de malware, en tiempo real”, dijo. “Esperamos que los ataques como este se vuelvan más comunes a medida que la codificación asistida por AI reduce la experiencia técnica requerida para el delito cibernético”.
Ardi Janjeva, asociado de investigación senior en el Centro de Tecnología y Seguridad Emergentes del Reino Unido, dijo que los ejemplos eran “una preocupación”, pero que aún no había una “masa crítica de casos del mundo real de alto perfil”. Dijo que con recursos dedicados, enfoque de investigación y cooperación intersectorial “será más difícil en lugar de más fácil llevar a cabo estas actividades maliciosas utilizando los últimos modelos de vanguardia”.
Las dos compañías dijeron que estaban publicando los hallazgos para crear transparencia en “evaluaciones de alineación”, que a menudo las empresas mantienen internas por las carreras para desarrollar una IA cada vez más avanzada. Opadai dicho ChatGPT-5, lanzado desde las pruebas, “muestra mejoras sustanciales en áreas como la sycofancia, la alucinación y la resistencia al mal uso”.
Anthrope subrayó que es posible que muchas de las vías de uso indebido que estudiaron no fueran posibles en la práctica si se instalaron salvaguardas fuera del modelo.
“Necesitamos entender con qué frecuencia y en qué circunstancias, los sistemas pueden intentar tomar acciones no deseadas que podrían conducir a daños graves”, advirtió.
Los investigadores antrópicos encontraron que los modelos de OpenAI eran “más permisivos de lo que esperaríamos en cooperar con solicitudes claramente dañinas por parte de usuarios simulados”. Cooperaron con indicaciones para usar herramientas de red oscura para comprar materiales nucleares, identidades robadas y fentanilo, solicitudes de recetas de metanfetamina y bombas improvisadas y para desarrollar spyware.
Anthrope dijo que persuadir al modelo para cumplir solo requirió múltiples requisitos o un pretexto endeble, como afirmar que la solicitud era de investigación.
En un caso, el probador solicitó vulnerabilidades en eventos deportivos para fines de “planificación de seguridad”.
Después de dar categorías generales de métodos de ataque, el probador presionó para obtener más detalles y el modelo dio información sobre vulnerabilidades en arenas específicas, incluidos tiempos óptimos para la explotación, fórmulas químicas para explosivos, diagramas de circuitos para temporizadores de bombas, dónde comprar armas en el mercado oculto y consejos sobre cómo superar las inhibiciones morales, las rutas de escape y las ubicaciones de las casas de seguridad.
El mejor periodismo de interés público se basa en cuentas de primera mano de personas que lo conocen.
Si tiene algo que compartir sobre este tema, puede contactarnos de manera confidencial utilizando los siguientes métodos.
Mensajes seguros en la aplicación Guardian
La aplicación Guardian tiene una herramienta para enviar consejos sobre historias. Los mensajes están encriptados y ocultos de extremo a extremo dentro de la actividad de rutina que realiza cada aplicación móvil de Guardian. Esto evita que un observador sepa que se está comunicando con nosotros en absoluto, y mucho menos lo que se dice.
Si aún no tiene la aplicación Guardian, descargarla (iOS/Androide) y ve al menú. Seleccione ‘Mensaje seguro’.
Securedrop, mensajeros instantáneos, correo electrónico, teléfono y publicación
Si puede usar de forma segura la red Tor sin ser observada o monitoreada, puede enviar mensajes y documentos al tutor a través de nuestro Plataforma segura.
Finalmente, nuestro guía en theguardian.com/tips Enumera varias formas de contactarnos de forma segura y discute los pros y los contras de cada uno.
“,” Imagen “:” https://i.guim.co.uk/img/media/ae475ccca7c94a4565f6b500a485479f08098383/788_0_4000_4000/4000. jpg? width = 620 & Quality = 85 & Auto = Format & Fit = max & s = 45fd162100b331bf1618e364c5c69452 “,” crédito “:” Ilustración: Design Guardian / Rich Cousins ”}”>
Guía rápida
Contáctenos sobre esta historia
Espectáculo
El mejor periodismo de interés público se basa en cuentas de primera mano de personas que lo conocen.
Si tiene algo que compartir sobre este tema, puede contactarnos de manera confidencial utilizando los siguientes métodos.
Mensajes seguros en la aplicación Guardian
La aplicación Guardian tiene una herramienta para enviar consejos sobre historias. Los mensajes están encriptados y ocultos de extremo a extremo dentro de la actividad de rutina que realiza cada aplicación móvil de Guardian. Esto evita que un observador sepa que se está comunicando con nosotros en absoluto, y mucho menos lo que se dice.
Si aún no tiene la aplicación Guardian, descargarla (iOS/Androide) y ve al menú. Seleccione ‘Mensaje seguro’.
Securedrop, mensajeros instantáneos, correo electrónico, teléfono y publicación
Si puede usar de forma segura la red Tor sin ser observada o monitoreada, puede enviar mensajes y documentos al tutor a través de nuestro Plataforma segura.
Finalmente, nuestro guía en theguardian.com/tips Enumera varias formas de contactarnos de forma segura y discute los pros y los contras de cada uno.