Durante varias semanas, un creciente coro de desarrolladores de IA y usuarios avanzados han afirmado que los modelos emblemáticos de Anthropic estaban perdiendo su ventaja. Usuarios de GitHub, X y Reddit informaron un fenómeno que describieron como “reducción de la IA”—una degradación percibida en la que Claude parecía menos capaz de razonar sostenidamente, más propenso a alucinaciones y cada vez más derrochador de fichas.

Los críticos señalaron un cambio mensurable en el comportamiento, afirmando que el modelo había pasado de un enfoque de “primero buscar” a un estilo más perezoso de “editar primero” en el que ya no era confiable para ingeniería compleja.

Si bien la compañía inicialmente desestimó las afirmaciones de “nerfear” el modelo para gestionar la demanda, la creciente evidencia de usuarios de alto perfil y puntos de referencia de terceros ha creado una brecha de confianza significativa.

Hoy, Anthropic abordó estas preocupaciones directamentepublicar una autopsia técnica que identificó tres cambios distintos en la capa del producto responsables de los problemas de calidad informados.

“Nos tomamos muy en serio los informes de degradación”, dice Publicación de blog antrópica sobre el tema.. “Nunca degradamos intencionalmente nuestros modelos y pudimos confirmar de inmediato que nuestra API y nuestra capa de inferencia no se vieron afectadas”.

Anthropic dice que resolvió los problemas al revertir el cambio de esfuerzo de pensamiento y el mensaje de detalle, mientras solucionaba el error de almacenamiento en caché en v2.1.116.

La creciente evidencia de degradación

La controversia cobró impulso a principios de abril de 2026, impulsada por un análisis técnico detallado de la comunidad de desarrolladores. Stella Laurenzo, directora senior del grupo de IA de AMD, publicó una auditoría exhaustiva de 6.852 archivos de sesión de Claude Code y más de 234.000 llamadas a herramientas en Github mostrando una caída de rendimiento debido al uso anterior.

Sus hallazgos sugirieron que la profundidad del razonamiento de Claude había disminuido drásticamente, lo que provocó bucles de razonamiento y una tendencia a elegir la “solución más simple” en lugar de la correcta.

Esta frustración anecdótica aparentemente ha sido validada por puntos de referencia de terceros. BridgeMind informó que la precisión del Claude Opus 4.6 cayó del 83,3% al 68,3% en sus pruebas, lo que provocó que su clasificación cayera del segundo al décimo lugar.

Aunque algunos investigadores argumentaron que estas comparaciones de referencia específicas eran defectuosas debido a alcances de prueba inconsistentes, la narrativa de que Claude se había vuelto “más tonto” se convirtió en un punto de discusión viral. Los usuarios también informaron que los límites de uso se estaban agotando más rápido de lo esperado, lo que generó sospechas de que Anthropic estaba limitando intencionalmente el rendimiento para gestionar el aumento de la demanda.

las causas

En su publicación post-morem, Anthropic aclaró que si bien los pesos subyacentes del modelo no fueron retrocedidos, tres cambios específicos en el “arnés” alrededor de los modelos dañaron inadvertidamente su rendimiento:

  • Esfuerzo de razonamiento estándar: El 4 de marzo, Anthropic cambió el esfuerzo de razonamiento predeterminado de high a medium para que Claude Code resuelva los problemas de latencia de la interfaz de usuario. Este cambio tenía como objetivo evitar que la interfaz pareciera “congelada” mientras el modelo pensaba, pero resultó en una caída notable en la inteligencia para tareas complejas.

  • Un error de lógica de caché: Lanzada el 26 de marzo, una optimización de la caché destinada a eliminar viejos “pensamientos” de las sesiones inactivas contenía un error crítico. En lugar de borrar el historial de pensamientos una vez después de una hora de inactividad, lo borraba con cada turno posterior, lo que hacía que el modelo perdiera su “memoria a corto plazo” y se volviera repetitivo u olvidadizo.

  • Límites de detalle de las indicaciones del sistema: El 16 de abril, Anthropic agregó instrucciones al mensaje del sistema para mantener el texto entre llamadas a herramientas en menos de 25 palabras y las respuestas finales en menos de 100 palabras. Este intento de reducir la verbosidad en Opus 4.7 fracasó, provocando una caída del 3% en las calificaciones de calidad de codificación.

Impacto y salvaguardias futuras

Los problemas de calidad se extendieron más allá de la CLI de Claude Code y afectaron la SDK del agente Claude y Claude Coworkaunque el Claudio API no fue impactado.

Anthropic admitió que estos cambios hicieron que el modelo pareciera tener “menos inteligencia”, lo que reconocieron que no era la experiencia que los usuarios deberían esperar.

Para recuperar la confianza de los usuarios y evitar futuras regresiones, Anthropic está implementando varios cambios operativos:

  • Comida para perros en interiores: Se requerirá que una mayor parte del personal interno utilice las versiones públicas exactas de Claude Code para garantizar que experimenten el producto como lo hacen los usuarios.

  • Conjuntos de evaluación mejorados: La compañía ahora realizará un conjunto más amplio de evaluaciones y “ablaciones” por modelo para cada cambio inmediato del sistema para aislar el impacto de instrucciones específicas.

  • Controles más estrictos: Se han creado nuevas herramientas para facilitar la auditoría de los cambios sobre la marcha, y los cambios específicos del modelo estarán estrictamente restringidos a los objetivos previstos.

  • Remuneración del Suscriptor: Para compensar los tokens desperdiciados y la fricción de rendimiento causada por estos errores, Anthropic restableció los límites de uso para todos los suscriptores a partir del 23 de abril.

La empresa tiene intención de utilizar su nuevo Cuenta @ClaudeDevs en X y temas de GitHub para proporcionar un razonamiento más profundo detrás de futuras decisiones de productos y mantener un diálogo más transparente con su base de desarrolladores.

Fuente