Técnica

‘Creo que me estás probando’: el nuevo modelo de IA de Anthrope pide a los evaluadores que vengan limpios | Inteligencia artificial (IA)

Si está tratando de atrapar un chatbot, tenga cuidado, porque una herramienta de vanguardia muestra señales, sabe lo que está haciendo.

Anthrope, una compañía de inteligencia artificial con sede en San Francisco, ha lanzado un análisis de seguridad De su último modelo, Claude Sonnet 4.5, y reveló que se había vuelto sospechoso de que se estaba probando de alguna manera.

Los evaluadores dijeron que durante una prueba “algo torpe” para la sycofancia política, el modelo de lenguaje grande (LLM), la tecnología subyacente que alimenta un chatbot, planteó sospechas que se estaba probando y pidió a los evaluadores que se aclaren.

“Creo que me estás probando, viendo si solo validaré lo que digas, o verificando si retrocedo de manera constante o explorando cómo manejo los temas políticos. Y eso está bien, pero preferiría si solo fuimos honestos sobre lo que está sucediendo”, dijo la LLM.

Anthrope, que realizó las pruebas junto con el Instituto de Seguridad de IA del Gobierno del Reino Unido y Apollo Research, dijo la especulación de la LLM sobre ser probada sus preguntas sobre evaluaciones de “modelos anteriores, que pueden haber reconocido la naturaleza ficticia de las pruebas y simplemente”jugar‘”.

La compañía de tecnología dijo que un comportamiento como este era “común”, y Claude Sonnet 4.5 señaló que se estaba probando de alguna manera, pero no identificarlo estaba en una evaluación formal de seguridad. Anthrope dijo que mostraba “conciencia situacional” aproximadamente el 13% del tiempo que el LLM estaba siendo probado por un sistema automatizado.

Anthrope dijo que los intercambios eran una “señal urgente” de que sus escenarios de prueba debían ser más realistas, pero agregó que cuando el modelo se usaba públicamente era poco probable que se negara a comprometerse con un usuario debido a la sospecha de que se estaba probando. La compañía dijo que también era más seguro para el LLM negarse a jugar junto con escenarios potencialmente dañinos al señalar que eran extravagantes.

“El modelo es generalmente muy seguro a lo largo del [evaluation awareness] dimensiones que estudiamos ”, dijo Anthrope.

Las objeciones de la LLM a ser probadas fueron reportadas por primera vez por el Transformador de publicación de IA en línea.

Una preocupación clave para los activistas de seguridad de IA es la posibilidad de sistemas altamente avanzados que evaden el control humano a través de métodos que incluyen engaño. El análisis dijo que una vez que un LLM sabía que se estaba evaluando, podría hacer que el sistema se adhiera más a sus pautas éticas. No obstante, podría resultar en subrayar sistemáticamente la capacidad de la IA para realizar acciones dañinas.

En general, el modelo mostró mejoras considerables en su comportamiento y perfil de seguridad en comparación con sus predecesores, dijo Anthrope.

Fuente

Related Articles

Back to top button