Cuando un agente de IA pierde contexto a mitad de una tarea porque el almacenamiento tradicional no puede seguir el ritmo de la inferencia, no es un problema de modelo, es un problema de almacenamiento. En GTC 2026, Nvidia anunció BlueField-4 STX, una arquitectura de referencia modular que inserta una capa de memoria contextual dedicada entre las GPU y el almacenamiento tradicional, reclamando 5 veces el rendimiento del token, 4 veces la eficiencia energética y 2 veces la velocidad de ingesta de datos del almacenamiento convencional basado en CPU.
El cuello de botella de los objetivos STX son los datos de la caché de valores-clave. La caché KV es el registro almacenado de lo que un modelo ya ha procesado: los cálculos intermedios que un LLM guarda para no tener que volver a calcular la atención de todo el contexto en cada paso de inferencia. Es lo que permite a un agente mantener una memoria de trabajo coherente entre sesiones, llamadas a herramientas y pasos de razonamiento. A medida que las ventanas de contexto crecen y los agentes toman más pasos, este caché crece con ellos. Cuando hay que recorrer una ruta de almacenamiento tradicional para volver a la GPU, la inferencia se ralentiza y la utilización de la GPU disminuye.
STX no es un producto que Nvidia vende directamente. Es una arquitectura de referencia que la empresa está distribuyendo a su ecosistema de socios de almacenamiento para que los proveedores puedan construir una infraestructura de IA nativa a su alrededor.
STX coloca una capa de memoria contextual entre la GPU y el disco
La arquitectura se basa en un nuevo procesador BlueField-4 optimizado para almacenamiento que combina la CPU Vera de Nvidia con ConnectX-9 SuperNIC. Se ejecuta en una red Ethernet Spectrum-X y es programable a través de la plataforma de software DOCA de Nvidia.
La primera implementación a escala de rack es la plataforma de almacenamiento de memoria contextual Nvidia CMX. CMX amplía la memoria de la GPU con una capa de contexto de alto rendimiento diseñada específicamente para almacenar y recuperar datos de caché KV generados por modelos de lenguaje grandes durante la inferencia. Mantener este caché accesible sin forzar un viaje de ida y vuelta a través del almacenamiento de uso general es para lo que CMX está diseñado.
“Los centros de datos tradicionales proporcionan almacenamiento de alta capacidad para uso general, pero a menudo carecen de la capacidad de respuesta necesaria para interactuar con agentes de IA que necesitan trabajar en muchos pasos, herramientas y sesiones diferentes”, dijo Ian Buck, vicepresidente de computación de hiperescala y alto rendimiento de Nvidia, en una sesión informativa con la prensa y analistas.
En respuesta a una pregunta de VentureBeat, Buck confirmó que el STX también viene con una plataforma de referencia de software junto con la arquitectura de hardware. Nvidia está ampliando DOCA para incluir un nuevo componente al que se hace referencia en el informe como DOCA Memo.
“Nuestros proveedores de almacenamiento pueden aprovechar la programabilidad del procesador BlueField-4 para optimizar el almacenamiento para la fábrica de IA del agente”, dijo Buck. “Además de tener una arquitectura de rack de referencia, también proporcionamos una plataforma de software de referencia para que puedan ofrecer estas innovaciones y optimizaciones a sus clientes”.
Los socios de almacenamiento basados en STX obtienen un diseño de referencia de hardware y una plataforma de referencia de software: una base programable para un almacenamiento optimizado para el contexto.
La lista de socios de Nvidia abarca proveedores de almacenamiento y proveedores de nube nativos de IA
Los proveedores de almacenamiento que diseñan conjuntamente infraestructura basada en STX incluyen Cloudian, DDN, Dell Technologies, Everpure, Hitachi Vantara, HPE, IBM, MinIO, NetApp, Nutanix, VAST Data y WEKA. Los socios fabricantes que construyen sistemas basados en STX incluyen AIC, Supermicro y Quanta Cloud Technology.
En el lado de la nube y la IA, CoreWeave, Crusoe, IREN, Lambda, Mistral AI, Nebius, Oracle Cloud Infrastructure y Vultr se han comprometido con STX para el almacenamiento de memoria contextual.
Esta combinación de empresas tradicionales de almacenamiento empresarial y proveedores de nube nativos de IA es la señal que vale la pena observar. Nvidia no posiciona a STX como un producto especializado para hiperescaladores. Lo está posicionando como el estándar de referencia para cualquiera que construya una infraestructura de almacenamiento que tenga que atender cargas de trabajo de IA de agentes, que, en los próximos dos o tres años, probablemente incluirán la mayoría de las implementaciones de IA empresarial que ejecutan inferencia de varios pasos a escala.
Las plataformas basadas en STX estarán disponibles para los socios en la segunda mitad de 2026.
IBM muestra cómo se ve el problema de la capa de datos en producción
IBM está en ambos lados del anuncio de STX. Está catalogado como un proveedor de almacenamiento que diseña conjuntamente infraestructura basada en STX, y Nvidia ha confirmado por separado que ha seleccionado IBM Storage Scale System 6000, certificado y validado en plataformas Nvidia DGX, como base de almacenamiento de alto rendimiento para su propia infraestructura de análisis nativa de GPU.
IBM también anunció una colaboración más amplia y ampliada con Nvidia en GTC, incluida la integración acelerada por GPU entre el motor watsonx.data Presto SQL de IBM y la biblioteca cuDF de Nvidia. Una prueba de concepto de producción con Nestlé presentó cifras sobre cómo se ve esta aceleración: un ciclo de actualización de datos en todo el mercado de datos Order-to-Cash de la compañía, que cubre 186 países y 44 mesas, se redujo de 15 minutos a tres minutos. IBM informó un ahorro de costos del 83% y una mejora de precio-rendimiento 30 veces mayor.
El resultado de Nestlé es una carga de trabajo de análisis estructurado. No demuestra directamente el desempeño de la inferencia del agente. Pero hace concreto el argumento compartido de IBM y Nvidia: la capa de datos es donde el rendimiento de la IA empresarial es actualmente limitado, y la aceleración de la GPU produce resultados materiales en la producción.
Por qué el nivel de almacenamiento se está convirtiendo en una decisión de infraestructura de primera clase
STX es una señal de que la capa de almacenamiento se está convirtiendo en una preocupación de primera clase en la planificación de la infraestructura de IA empresarial, en lugar de una ocurrencia tardía en la adquisición de GPU. El NAS de uso general y el almacenamiento de objetos no están diseñados para brindar datos de caché KV con requisitos de latencia de inferencia. Los sistemas basados en STX de socios como Dell, HPE, NetApp y VAST Data son lo que Nvidia presenta como una alternativa práctica, con la plataforma de software DOCA proporcionando la capa de programabilidad para ajustar el comportamiento del almacenamiento para cargas de trabajo de agentes específicos.
Las afirmaciones de rendimiento (5 veces el rendimiento del token, 4 veces la eficiencia energética, 2 veces la ingesta de datos) se miden en comparación con las arquitecturas de almacenamiento tradicionales basadas en CPU. Nvidia no especificó la configuración base exacta para estas comparaciones. Antes de que estos números impulsen las decisiones de infraestructura, vale la pena establecer la línea de base.
Se esperan plataformas de los socios en la segunda mitad de 2026. Dado que la mayoría de los principales proveedores de almacenamiento ya están realizando ingeniería conjunta en STX, las empresas que evalúan actualizaciones de almacenamiento para la infraestructura de IA durante los próximos 12 meses deben esperar que las opciones basadas en STX estén disponibles en sus relaciones con proveedores existentes.
















