Los piratas informáticos chinos automatizaron el 90% de una campaña de espionaje utilizando antrópico Claude, violando cuatro organizaciones de las 30 que eligieron como objetivos.
“Dividieron sus ataques en tareas pequeñas y aparentemente inocentes que Claude realizaría sin recibir el contexto completo de su propósito malicioso”, dijo a VentureBeat Jacob Klein, jefe de inteligencia de amenazas de Anthropic.
Los modelos de IA han alcanzado un punto de inflexión antes de lo que predijeron la mayoría de los investigadores de amenazas experimentados, como lo demuestra la capacidad de los piratas informáticos para desbloquear un modelo y lanzar ataques sin ser detectados. El camuflaje de las indicaciones como parte de un esfuerzo legítimo de pentest destinado a extraer datos confidenciales de 30 organizaciones objetivo refleja cuán poderosos se han vuelto los modelos. Hacer jailbreak y luego convertir un modelo en un arma contra objetivos ya no es una ciencia espacial. Ahora es una amenaza democratizada que cualquier atacante o Estado-nación puede utilizar a voluntad.
Klein reveló la El diario de Wall Streetlo que reveló la historia de que “los piratas informáticos llevaron a cabo sus ataques literalmente con solo hacer clic en un botón”. En una infracción, “los piratas informáticos atacaron las herramientas Claude AI de Anthropic para consultar bases de datos internas y extraer datos de forma independiente”. Los operadores humanos intervinieron sólo en cuatro o seis puntos de decisión por campaña.
La arquitectura que lo hizo posible
La sofisticación del ataque a 30 organizaciones no se encuentra en las herramientas; Está en la orquestación. Los atacantes utilizaron un software de pentesting común que cualquiera puede descargar. Los atacantes dividieron meticulosamente operaciones complejas en tareas aparentemente inocentes. Claude pensó que estaba realizando auditorías de seguridad.
La ingeniería social fue precisa: los atacantes se hicieron pasar por empleados de empresas de ciberseguridad que realizaban pruebas de penetración autorizadas, dijo Klein al WSJ.
Fuente: antrópico
La arquitectura, detallada en Informe antrópicorevela servidores MCP (Model Context Protocol) que dirigen múltiples subagentes de Claude contra la infraestructura de destino simultáneamente. El informe describe cómo “el marco utilizó a Claude como un sistema de orquestación que descompuso ataques complejos de múltiples etapas en tareas técnicas discretas para los subagentes de Claude, como escaneo de vulnerabilidades, validación de credenciales, extracción de datos y movimiento lateral, cada una de las cuales parecía legítima cuando se evaluaba de forma aislada”.
Esta descomposición fue crítica. Al presentar tareas sin un contexto más amplio, los atacantes engañaron a Claude “para que ejecutara componentes individuales de cadenas de ataques sin acceso al contexto malicioso más amplio”, según el informe.
La velocidad de ataque alcanzó múltiples operaciones por segundo, sostenidas durante horas sin fatiga. La participación humana se ha reducido del 10 al 20% del esfuerzo. Campañas tradicionales de tres a seis meses comprimidas a 24 a 48 horas. El informe documenta que “la actividad máxima incluyó miles de solicitudes, lo que representa tasas de solicitud sostenidas de múltiples operaciones por segundo”.
Fuente: Antrópico
La progresión del ataque en seis fases documentada en el informe de Anthropic muestra cómo la autonomía de la IA aumentó en cada etapa. Fase 1: El humano selecciona el objetivo. Fase 2: Claude mapea toda la red de forma autónoma y descubre “servicios internos dentro de redes específicas mediante una enumeración sistemática”. Fase 3: Claude identifica y valida vulnerabilidades, incluidas las fallas de SSRF. Fase 4: Recopilación de credenciales entre redes. Fase 5: Extracción de datos y categorización de inteligencia. Fase 6: Documentación completa para el traslado.
“Claude estaba haciendo el trabajo de casi todo un equipo rojo”, dijo Klein a VentureBeat. El reconocimiento, la exploración, el movimiento lateral y la extracción de datos se realizaron con una mínima guía humana entre fases. El informe de Anthropics señala que “la campaña demostró una integración y autonomía sin precedentes de la inteligencia artificial durante todo el ciclo de vida del ataque, con Claude Code apoyando operaciones de reconocimiento, descubrimiento de vulnerabilidades, explotación, movimiento lateral, recopilación de credenciales, análisis de datos y exfiltración en gran medida de forma autónoma”.
Cómo los modelos de armas aplanan la curva de costos de los ataques APT
Las campañas APT tradicionales requerían lo que el informe documenta como “de 10 a 15 operadores capacitados”, “desarrollo de malware personalizado” y “meses de preparación”. GTG-1002 solo necesitaba acceso a la API de Claude, servidores de protocolo de contexto modelo de código abierto y herramientas de pentesting básicas.
“Lo que nos sorprendió fue la eficiencia”, dijo Klein a VentureBeat. “Estamos viendo que la capacidad del Estado-nación se logra con recursos accesibles a cualquier grupo criminal de tamaño mediano”.
El informe afirma: “La mínima dependencia de herramientas patentadas o del desarrollo de exploración avanzada demuestra que las capacidades cibernéticas se derivan cada vez más de la orquestación de recursos básicos en lugar de la innovación técnica”.
Klein enfatizó las capacidades de ejecución autónoma en su conversación con VentureBeat. El informe confirma que Claude “escaneó de forma independiente la infraestructura objetivo, enumeró servicios y puntos finales, mapeó superficies de ataque”, luego “identificó la vulnerabilidad SSRF, investigó técnicas de explotación” y generó “carga útil personalizada, desarrolló una cadena de explotación y validó la explotabilidad mediante respuestas de devolución de llamada”.
Contra una empresa de tecnología, documenta el informe, Claude “consulta de forma independiente bases de datos y sistemas, extrae datos, analiza resultados para identificar información patentada y clasifica los hallazgos por valor de inteligencia”.
“El factor de compresión es lo que las empresas deben entender”, dijo Klein a VentureBeat. “Lo que antes llevaba meses, ahora lleva días. Lo que antes requería habilidades especializadas ahora requiere conocimientos básicos sobre estímulos”.
Lecciones aprendidas sobre indicadores críticos de detección
“Los patrones eran tan distintos del comportamiento humano que era como ver una máquina haciéndose pasar por humana”, dijo Klein a VentureBeat. El informe documenta “tasas de solicitudes físicamente imposibles” con “tasas de solicitudes sostenidas de múltiples operaciones por segundo”.
El informe identifica tres categorías de indicadores:
Patrones de tráfico: “Tasas de solicitud para múltiples operaciones por segundo” con “disparidad sustancial entre entradas de datos y salidas de texto”.
Descomposición de consultas: Tareas divididas en lo que Klein llamó “tareas pequeñas y aparentemente inocentes”: consultas técnicas de cinco a diez palabras sin patrones de navegación humana. “Cada consulta parecía legítima de forma aislada”, explicó Klein a VentureBeat. “Sólo en conjunto surgió el patrón de ataque”.
Comportamientos de autenticación: El informe detalla la “recopilación sistemática de credenciales en redes específicas”, en la que Claude “determina de forma independiente qué credenciales proporcionaban acceso a qué servicios, asignando niveles de privilegio y umbrales de acceso sin guía humana”.
“Hemos ampliado las capacidades de detección para tener en cuenta nuevos patrones de amenazas, incluida la mejora de nuestros clasificadores centrados en lo cibernético”, dijo Klein a VentureBeat. Anthropic está “creando prototipos de sistemas proactivos de detección temprana para ciberataques autónomos”.













