Antrópico tiene Nuevas capacidades anunciadas Eso permitirá que algunos de sus modelos más nuevos y más grandes terminen las conversaciones en lo que la compañía describe como “casos raros y extremos de interacciones de usuario persistentemente dañinas o abusivas”. Sorprendentemente, Anthrope dice que está haciendo esto para no proteger al usuario humano, sino al modelo de IA en sí.

Para ser claros, la compañía no afirma que sus modelos Claude AI son sensibles o pueden verse perjudicados por sus conversaciones con los usuarios. En sus propias palabras, Anthrope sigue siendo “muy incierto sobre el estado moral potencial de Claude y otros LLM, ahora o en el futuro”.

Sin embargo, su anuncio apunta a Un programa reciente creado para estudiar lo que llama “Bienestar modelo“Y dice que Anthrope está adoptando esencialmente un enfoque justo en el caso,” trabajando para identificar e implementar intervenciones de bajo costo para mitigar los riesgos para modelar el bienestar, en caso de que tal bienestar sea posible “.

Este último cambio se limita actualmente a Claude Opus 4 y 4.1. Y nuevamente, solo se supone que sucederá en “casos de borde extremo”, como “las solicitudes de los usuarios de contenido sexual que involucran a menores e intentos de solicitar información que permita la violencia o actos de terror a gran escala”.

Si bien ese tipo de solicitudes podrían crear problemas legales o publicitarios para la propia antrópica (testigo de informes recientes sobre cómo ChatGPT puede reforzar o contribuir con el pensamiento delirante de sus usuarios), la compañía dice que en las pruebas de despliegue previo, Claude Opus 4 mostró una “fuerte preferencia contra” que respondió a estas solicitudes y un “patrón de angustia aparente” cuando lo hizo.

En cuanto a estas nuevas capacidades de finalización de la conversación, la compañía dice: “En todos los casos, Claude solo es usar su capacidad de finalización de conversación como último recurso cuando múltiples intentos de redirección han fallado y la esperanza de una interacción productiva se ha agotado, o cuando un usuario le pide explícitamente a Claude que termine un chat”.

Anthrope también dice que Claude ha sido “dirigido a no usar esta capacidad en los casos en que los usuarios podrían tener un riesgo inminente de dañarse a sí mismos o a otros”.

Evento de TechCrunch

San Francisco
|
27-29 de octubre de 2025

Cuando Claude termina una conversación, Anthrope dice que los usuarios aún podrán iniciar nuevas conversaciones de la misma cuenta y crear nuevas ramas de la conversación problemática editando sus respuestas.

“Estamos tratando esta característica como un experimento continuo y continuaremos refinando nuestro enfoque”, dice la compañía.

Fuente