Los modelos Claude AI de Anthrope pueden terminar con conversaciones “dañinas”

Foto del archivo: Anthrope ha dicho que sus modelos Claude Opus 4 y 4.1 ahora tendrán la capacidad de finalizar conversaciones que son “casos extremos de interacciones de usuario persistentemente dañinas o abusivas. | Crédito de la foto: Reuters
Anthrope ha dicho que sus modelos Claude Opus 4 y 4.1 ahora tendrán la capacidad de terminar conversaciones que son “casos extremos de interacciones de usuario persistentemente dañinas o abusivas”. La firma de IA anunció que la medida en un blog era mantener el bienestar de los modelos de IA que mostraban signos de angustia cuando los usuarios insistieron en continuar tales conversaciones incluso cuando Claude lo rechazó.
Los modelos terminarán el chat solo en raros “casos de borde extremo”, dijo Anthrope, como cuando “las solicitudes de contenido sexual que involucra a menores e intenta solicitar información que permita la violencia o actos de terror a gran escala”.
La firma dijo que durante las pruebas previas al despliegue de Claude Opus 4, el modelo AI autoinformado y las preferencias de comportamiento mostraron que estaban en “angustia aparente” cuando participaron en tales conversaciones.
Claude también ha sido “ordenado a no usar esta capacidad en los casos en que los usuarios puedan tener un riesgo inminente de dañarse a sí mismos o a otros”.
Una vez que el modelo AI finalice el chat, el usuario no podrá enviar nuevos mensajes en el mismo chat. Sin embargo, los chats más antiguos permanecerán y el usuario podrá comenzar una nueva conversación de inmediato.
Los usuarios aún pueden volver al mismo chat y editar y volver a intentar los mensajes anteriores para no perder chats importantes creando nuevas ramas desde el chat que se terminó.
Anthrope dijo que la función todavía se está probando y puede cambiar en función de los comentarios de los usuarios.
Publicado – 19 de agosto de 2025 01:16 PM es