OpenAI se lanzó la semana pasada. dos nuevos Una herramienta descargable gratuita que se supone que facilitará a las empresas la construcción de vallas alrededor de las alertas de entrada de los usuarios a los modelos de IA y los resultados resultantes generados por el sistema.

Las nuevas barreras están diseñadas para facilitar a las empresas la instalación de controles. Esto es para evitar que los chatbots de servicio al cliente respondan en un tono grosero. o revelar políticas internas sobre cómo se deben tomar decisiones sobre la oferta de reembolsos, por ejemplo.

Aunque estas herramientas están diseñadas para hacer que los modelos de IA sean más seguros para los clientes empresariales, algunos expertos en seguridad advierten que los métodos distribuidos de OpenAI podrían crear nuevas vulnerabilidades. y hacer que las empresas tengan conceptos erróneos sobre la seguridad. Y aunque OpenAI dice que ha lanzado estas herramientas de seguridad para el beneficio de todos, no hay duda de que la motivación de OpenAI no está impulsada por el deseo de revelar una ventaja sobre la IA rival como Anthropic, que está ganando terreno entre los usuarios empresariales. Esto se debió en parte a la percepción de que el modelo Claude tenía barandillas más fuertes que otros competidores.

Herramientas de seguridad OpenAI, que se llaman gpt-oss-safeguard-120b y gpt-oss-safeguard-20b. Es un tipo de modelo de IA llamado clasificador. Está diseñado para evaluar si las indicaciones que los usuarios envían a modelos de IA más grandes y de propósito general y si los modelos de IA siguen el conjunto de reglas. En el pasado, las empresas que compraban e implementaban modelos de IA podían entrenar ellos mismos estos clasificadores. Pero este proceso lleva mucho tiempo y puede resultar caro. Esto se debe a que los desarrolladores necesitarían recopilar muestras de contenido que infrinja las políticas para entrenar al clasificador. Luego, si la empresa quisiera ajustar la política aplicada a las barandillas, necesitará recolectar nuevas muestras de infracciones y capacitar a nuevos clasificadores.

OpenAI espera que la nueva herramienta haga que ese proceso sea más rápido y flexible. En cambio, se les entrena para seguir reglas fijas. Estos nuevos clasificadores de seguridad pueden leer políticas escritas y aplicarlas a contenido nuevo.

OpenAI dice que este método, al que llama “clasificación racional”, ayuda a las empresas. Pueden ajustar fácilmente sus políticas de seguridad. Lo mismo ocurre con la edición de texto en un documento. En lugar de reconstruir todo el modelo de clasificación, la compañía está posicionando el lanzamiento como una herramienta para las organizaciones que desean controlar cómo sus sistemas de inteligencia artificial manejan datos confidenciales, como registros médicos o registros de personal.

Sin embargo, se supone que incluso la herramienta es más segura para los clientes empresariales. Pero algunos expertos en seguridad dicen que podrían engañar a los usuarios haciéndoles creer que están a salvo. Esto se debe a que OpenAI utiliza un clasificador de IA de código abierto. Esto significa que han puesto a disposición todo el código del clasificador de forma gratuita. Incluyendo el peso o la configuración interna del modelo de IA.

Los clasificadores actúan como puertas de seguridad adicionales para los sistemas de inteligencia artificial, diseñadas para detener alertas maliciosas o inseguras antes de que lleguen al modelo principal. Pero al optar por el código abierto, OpenAI corre el riesgo de compartir el modelo de esas puertas. Esta transparencia puede ayudar a los investigadores a fortalecer los mecanismos de seguridad. Pero también puede ayudar a los malos actores a encontrar vulnerabilidades y vulnerabilidades más fácilmente. causando falso consuelo

“Construir estos modelos de código abierto puede ayudar tanto a atacantes como a defensores”, afirmó David Krueger, profesor de seguridad de IA en Mila. suerteFacilitará el desarrollo de enfoques para eludir clasificadores y otras protecciones similares”.

Por ejemplo, cuando un atacante tiene acceso a los pesos del clasificador. Podrían desarrollar fácilmente lo que se llama un ataque de “inyección rápida”, en el que desarrollan un aviso que engaña al clasificador para que ignore la política que se supone que debe aplicar. Los investigadores de seguridad descubrieron que en algunos casos incluso hay combinaciones de personajes que a una persona le parecen ridículas. Puede influir en el modelo de IA para que ignore la valla y haga cosas que no debería. Por razones que los investigadores no comprenden del todo, como dar instrucciones para fabricar bombas o ser racista.

El representante de OpenAI dirige suerte a la empresa Anuncio de publicación de blog. y Informes técnicos para varios modelos.

Dolor a corto plazo para ganancia a largo plazo

El código abierto puede ser un arma de doble filo cuando se trata de seguridad. Ayude a los investigadores y desarrolladores a probar, mejorar e implementar protecciones de IA más rápidamente. Aumentar la transparencia y la confianza. Por ejemplo, podría haber una manera para que los investigadores de seguridad ajusten los pesos del modelo para hacerlos más robustos para activar inyecciones sin degradar el rendimiento del modelo.

Pero también facilita que los atacantes estudien y eludan esas protecciones, por ejemplo, utilizando otro software de aprendizaje automático para ejecutar cientos de miles de posibles mensajes. Hasta que se encuentre un mensaje que hará que el modelo salte la valla. Además, los investigadores de seguridad también descubrieron que los ataques maliciosos provocan la inyección de modelos de IA generados automáticamente y desarrollados en modelos de IA de código abierto. A veces puede funcionar con modelos patentados de IA. El atacante no puede acceder al código base ni a los pesos del modelo. Los investigadores especulan que esto se debe a que puede haber algo inherente en la forma en que todos los grandes modelos de lenguaje codifican el lenguaje. Donde inyecciones de comandos similares tienen éxito en comparación con cualquier modelo de IA.

De esta manera, los clasificadores de código abierto no sólo pueden dar a los usuarios la falsa impresión de que sus sistemas están bien protegidos. Pero también podría hacer que todos los modelos de IA sean menos seguros. Pero los expertos dicen que vale la pena correr el riesgo. Porque el uso de clasificadores de código abierto debería facilitar que los expertos en seguridad de todo el mundo encuentren formas de hacer que los clasificadores sean más resistentes a este tipo de ataques.

“A largo plazo, compartir cómo funciona la protección es beneficioso: puede resultar en dolor a corto plazo, pero a largo plazo resulta en una protección más fuerte que realmente funciona. Y luego es bastante difícil evitarlo”, dijo Vasilios Mavroudis, científico investigador principal del Instituto Alan Turing.

Mavroudis dijo que si bien los clasificadores de código abierto podrían, en teoría, facilitar que alguien intente eludir la seguridad del modelo central de OpenAI, la compañía probablemente crea que el riesgo es bajo. Dijo que OpenAI ya cuenta con otras salvaguardas, incluido un equipo de expertos en seguridad humana que prueban continuamente las barreras de seguridad del modelo. Encontrar vulnerabilidades y esperar mejorarlas.

“El modelo de clasificador de código abierto ofrece a aquellos que quieren eludir el clasificador la oportunidad de aprender cómo hacerlo. Pero los jailbreakers comprometidos tienen más probabilidades de tener éxito”, afirmó Robert Trager, codirector de la Iniciativa de Gobernanza de IA de Oxford Martin.

“Recientemente descubrimos un método que evita todas las protecciones de aproximadamente el 95% de los grandes desarrolladores, y no estamos buscando ese método. Esto se debe a que el jailbreak designado ya será exitoso. Por lo tanto, los sistemas de código abierto tienen beneficios que los desarrolladores pueden usar con grupos menos comprometidos”, añade.

Competencia de IA empresarial

Esta versión también tiene un impacto en la competencia. Esto es especialmente cierto cuando OpenAI busca desafiar a empresas rivales de IA como Anthropic a medida que se convierten en clientes empresariales. La familia Claude de modelos de IA de Anthropic ha demostrado ser popular entre los clientes empresariales. Esto se debe en parte a su reputación de tener controles de seguridad más estrictos en comparación con otros modelos de IA entre las herramientas de seguridad. Las implementaciones de Antropología incluyen un “clasificador constitucional” que funciona de manera similar a la herramienta OpenAI de código abierto recientemente.

Anthropic se ha creado un nicho de mercado entre clientes empresariales. Especialmente cuando se trata de codificación. Según julio Informe de Menlo Ventures.Anthropic tiene una participación del 32% en el mercado de modelos de lenguajes para grandes empresas por uso, en comparación con el 25% de OpenAI. En casos de uso específicos de codificación, se informa que Anthropic tiene una participación del 42%, mientras que OpenAI tiene una participación del 21%. Al ofrecer herramientas centradas en las empresas, OpenAI puede estar intentando ganarse a algunos de estos clientes empresariales. y al mismo tiempo posicionarse como líder en seguridad de IA.

El “clasificador constitucional” de Anthropic consiste en un pequeño modelo de lenguaje que compara los resultados del modelo más grande con un conjunto de valores o políticas escritas. Con capacidades de código abierto similares, OpenAI proporciona a los desarrolladores las mismas barreras de seguridad personalizables que ayudaron a que los modelos de Anthropic fueran tan atractivos.

“Por lo que veo en la comunidad, parece ser bien recibido”, dice Mavroudis. “Ven el modelo como una forma de automatizar la moderación. También tiene connotaciones agradables como ‘Se lo estamos dando a la comunidad’. También podría ser una herramienta útil para organizaciones más pequeñas que no pueden entrenar el modelo por sí mismas”.

A algunos expertos también les preocupa que el uso de clasificadores de seguridad de código abierto pueda centralizar lo que se considera IA “segura”.

“La seguridad no es un concepto claramente definido. La implementación de estándares de seguridad refleja los valores y prioridades de la organización que creó el estándar y las limitaciones y deficiencias del modelo”, dijo John Thickstun, profesor asistente de ciencias de la computación en la Universidad de Cornell. decir ritmo de riesgo “Si la industria en su conjunto adopta los estándares desarrollados por OpenAI, corremos el riesgo de establecer una visión específica de la seguridad y de cortocircuitar la necesidad más amplia de examinar las necesidades de seguridad de las aplicaciones de IA en muchos sectores de la sociedad”.

Fuente