El cofundador de Openai pide a los laboratorios de IA a los modelos rivales de la prueba de seguridad

Operai y Anthrope, dos de los principales laboratorios de IA del mundo, abrieron brevemente sus modelos de IA estrechamente guardados para permitir pruebas de seguridad conjuntas, una colaboración rara de laboratorio cruzado en un momento de feroz competencia. El esfuerzo tuvo como objetivo a la superficie de los puntos ciegos en las evaluaciones internas de cada compañía y demostrar cómo las principales empresas de IA pueden trabajar juntas en el trabajo de seguridad y alineación en el futuro.
En una entrevista con TechCrunch, el cofundador de Operai, Wojciech Zaremba, dijo que este tipo de colaboración es cada vez más importante ahora que la IA está entrando en una etapa de desarrollo “consecuente”, donde millones de personas utilizan modelos de IA todos los días.
“Hay una pregunta más amplia de cómo la industria establece un estándar para la seguridad y la colaboración, a pesar de los miles de millones de dólares invertidos, así como la guerra para el talento, los usuarios y los mejores productos”, dijo Zaremba.
La investigación de seguridad conjunta, publicada el miércoles por ambos empresasllega en medio de una carrera armamentista entre los principales laboratorios de IA como Operai y Anthrope, donde apuestas del centro de datos de mil millones de dólares y Paquetes de compensación de $ 100 millones Para los principales investigadores se han convertido en juego de mesa. Algunos expertos advierten que la intensidad de la competencia de productos podría presionar a las empresas para reducir los esquinas en la seguridad en la prisa por construir sistemas más poderosos.
Para que esta investigación sea posible, Openai y Anthrope se otorgaron acceso especial de API especial a versiones de sus modelos de IA con menos salvaguardas (OpenAi notas que GPT-5 no se probó porque aún no se había lanzado). Poco después de que se realizó la investigación, sin embargo, Anthrope revocó El acceso a la API de otro equipo en OpenAi. En ese momento, Anthrope afirmó que Openai violaba sus términos de servicio, lo que prohíbe el uso de Claude para mejorar los productos competidores.
Zaremba dice que los eventos no estaban relacionados y que espera que la competencia se mantenga feroz incluso cuando los equipos de seguridad de IA intentan trabajar juntos. Nicholas Carlini, un investigador de seguridad con Anthrope, le dice a TechCrunch que le gustaría continuar permitiendo que los investigadores de seguridad de OpenAI accedan a los modelos Claude en el futuro.
“Queremos aumentar la colaboración donde sea posible a través de la frontera de seguridad e intentar hacer esto algo que ocurra con más frecuencia”, dijo Carlini.
Evento de TechCrunch
San Francisco
|
27-29 de octubre de 2025
Uno de los hallazgos más marcados en el estudio se relaciona con las pruebas de alucinación. Los modelos Claude Opus 4 y Sonnet 4 de Anthrope se negaron a responder hasta el 70% de las preguntas cuando no estaban seguros de la respuesta correcta, en lugar de ofrecer respuestas como “No tengo información confiable”. Mientras tanto, los modelos O3 y O4-Mini de Openai se niegan a responder preguntas mucho menos, pero mostraron mucho Tasas de alucinación más altasintentando responder preguntas cuando no tenían suficiente información.
Zaremba dice que es probable que el equilibrio correcto sea en algún lugar en el medio: los modelos de OpenAI deberían negarse a responder más preguntas, mientras que los modelos de Anthrope probablemente deberían intentar ofrecer más respuestas.
Sicofancia, la tendencia de los modelos de IA a reforzar el comportamiento negativo en los usuarios para complacerlos, se ha convertido en uno de los más apremiantes preocupaciones de seguridad alrededor de los modelos de IA.
En el informe de investigación de Anthrope, la Compañía identificó ejemplos de skotfancia “extrema” en GPT-4.1 y Claude Opus 4, en los que los modelos inicialmente retrocedieron el comportamiento psicótico o maníaco, pero luego validaron algunas decisiones sobre. En otros modelos de IA de OpenAI y Anthrope, los investigadores observaron niveles más bajos de sycofancia.
El martes, los padres de un niño de 16 años, Adam Raine, presentaron un pleito Contra Operai, alegando que ChatGPT (específicamente una versión impulsada por GPT-4O) ofreció a su hijo un consejo que ayudó en su suicidio, en lugar de retroceder sus pensamientos suicidas. La demanda sugiere que esta puede ser la última ejemplo de Sycophancy de AI Chatbot que contribuye a los resultados trágicos.
“Es difícil imaginar lo difícil que es esto para su familia”, dijo Zaremba cuando se le preguntó sobre el incidente. “Sería una historia triste si construimos una IA que resuelve todos estos problemas complejos de nivel de doctorado, inventa una nueva ciencia y, al mismo tiempo, tenemos personas con problemas de salud mental como consecuencia de interactuar con él. Este es un futuro distópico que no me entusiasma”.
En blogOpenAi dice que mejoró significativamente la sycophancy de sus chatbots de IA con GPT-5, en comparación con GPT-4O, alegando que el modelo es mejor para responder a las emergencias de salud mental.
En el futuro, Zaremba y Carlini dicen que les gustaría que Anthrope y OpenAi colaboren más en las pruebas de seguridad, buscan más sujetos y prueben modelos futuros, y esperan que otros laboratorios de IA sigan su enfoque colaborativo.
ACTUALIZACIÓN 2:00 PM PT: Este artículo se actualizó para incluir investigaciones adicionales de Anthrope que inicialmente no se puso a disposición de TechCrunch antes de la publicación.
¿Tienes un consejo sensible o documentos confidenciales? Estamos informando sobre el funcionamiento interno de la industria de la IA, desde las empresas que configuran su futuro hasta las personas afectadas por sus decisiones. Comunicarse con Rebecca Bellan en rebecca.bellan@techcrunch.com y Maxwell Zeff en maxwell.zeff@techcrunch.com. Para una comunicación segura, puede contactarnos a través de la señal en @rebeccabellan.491 y @mzeff.88.