A medida que la IA de las agencias pasa de los experimentos a las cargas de trabajo de producción reales, está surgiendo un problema de infraestructura silencioso pero grave: la memoria. No calcules. No modelos. Memoria.

Detrás de escena, las GPU actuales simplemente no tienen suficiente espacio para almacenar los cachés de valores clave (KV) en los que confían los agentes de IA modernos y de larga duración para mantener el contexto. El resultado es una gran cantidad de desperdicio invisible: las GPU rehacen el trabajo que ya hicieron, los costos de la nube aumentan y el rendimiento se ve afectado. Es un problema que ya está apareciendo en entornos de producción, aunque la mayoría de la gente aún no lo ha identificado.

En una parada reciente en la serie VentureBeat AI Impact, el CTO de WEKA, Shimon Ben-David, se unió al CEO de VentureBeat, Matt Marshall, para desentrañar el emergente “muro de la memoria” de la industria y por qué se está convirtiendo en uno de los mayores obstáculos para escalar una IA de agente verdaderamente con estado: sistemas que pueden recordar y construir en contexto a lo largo del tiempo. La conversación no sólo diagnosticó el problema; Introdujo una forma completamente nueva de pensar sobre la memoria, a través de un enfoque que WEKA llama almacenamiento de tokens.

El problema de la memoria de la GPU

“Cuando miramos la infraestructura de inferencia, no es un desafío para los ciclos de la GPU. Es principalmente un problema de memoria de la GPU”, dijo Ben-David.

La raíz del problema radica en cómo funcionan los modelos de transformadores. Para generar respuestas, dependen de cachés KV que almacenan información contextual para cada token en una conversación. Cuanto más grande es la ventana de contexto, más memoria consumen estos cachés y esto se acumula rápidamente. Una sola cadena de 100.000 tokens puede requerir alrededor de 40 GB de memoria GPU, señaló Ben-David.

Esto no sería un problema si las GPU tuvieran memoria ilimitada. Pero no es así. Incluso las GPU más avanzadas vienen con alrededor de 288 GB de memoria de alto ancho de banda (HBM), y este espacio también debe acomodar el modelo en sí.

En entornos de inferencia multiinquilino del mundo real, esto se vuelve doloroso rápidamente. Las cargas de trabajo como el desarrollo de código o el procesamiento de declaraciones de impuestos dependen en gran medida del caché KV para el contexto.

“Si cargo tres o cuatro archivos PDF de 100.000 tokens en una plantilla, eso es todo: he agotado la capacidad de la caché KV del HBM”, afirmó Ben-David. Esto se conoce como el muro de la memoria. “De repente, lo que el entorno de inferencia se ve obligado a hacer es descartar datos”, añadió.

Esto significa que las GPU desechan constantemente contexto que volverán a necesitar pronto, impidiendo que los agentes hayan podido mantener conversaciones y contexto a lo largo del tiempo.

El impuesto de inferencia oculto

“Constantemente vemos GPU en entornos de inferencia recalculando cosas que ya han hecho”, dijo Ben-David. Los sistemas rellenan previamente la caché KV, comienzan a decodificar, se quedan sin espacio y desalojan los datos anteriores. Cuando se vuelve a necesitar este contexto, se repite todo el proceso: precompletar, decodificar, completar nuevamente. A escala, esto representa una enorme cantidad de trabajo desperdiciado. Esto también significa desperdicio de energía, mayor latencia y degradación de la experiencia del usuario, todo mientras se reducen los márgenes.

Este desperdicio de recálculo de GPU aparece directamente en el balance. Las organizaciones pueden sufrir casi un 40% de gastos generales solo debido a ciclos de prepoblación redundantes. Esto está creando un efecto dominó en el mercado de inferencia.

“Si nos fijamos en los precios de los grandes proveedores de modelos como Anthropic y OpenAI, en realidad están enseñando a los usuarios a estructurar sus indicaciones de una manera que aumenta la probabilidad de acceder a la misma GPU que tiene almacenada su caché KV”, dijo Ben-David. “Si accede a esta GPU, el sistema puede omitir la fase de prepoblación y comenzar a decodificar inmediatamente, lo que le permite generar más tokens de manera eficiente”.

Pero esto todavía no resuelve el problema subyacente de la infraestructura de la capacidad de memoria de la GPU extremadamente limitada.

Resolviendo IA con estado

“¿Cómo se supera ese muro de la memoria? ¿Cómo se supera? Esa es la clave de la inferencia económica moderna”, dijo Ben-David. “Vemos muchas empresas que intentan resolver esto de diferentes maneras”.

Algunas organizaciones están implementando nuevos modelos lineales que intentan crear cachés KV más pequeñas. Otros se centran en abordar la eficiencia de la caché.

“Para ser más eficientes, las empresas utilizan entornos que calculan el KV de caché en una GPU y luego intentan copiarlo de la memoria de la GPU o utilizan un entorno local para hacerlo”, explicó Ben-David. “¿Pero cómo se puede hacer esto a escala y de manera rentable, sin sobrecargar su memoria y sin sobrecargar su red? Eso es algo en lo que WEKA está ayudando a nuestros clientes”.

Simplemente agregar más GPU al problema no resuelve la barrera de la memoria de la IA. “Hay algunos problemas para los que no se puede invertir suficiente dinero”, dijo Ben-David.

Memoria aumentada y almacenamiento de tokens, explicado

La respuesta de WEKA es lo que llama memoria aumentada y almacenamiento de tokens: una forma de repensar dónde y cómo residen los datos de la caché KV. En lugar de forzar que todo quepa en la memoria de la GPU, Augmented Memory Grid de WEKA extiende la caché KV a un “almacén” rápido y compartido dentro de su arquitectura NeuralMesh.

En la práctica, esto transforma la memoria de una restricción estricta a un recurso escalable, sin agregar latencia de inferencia. WEKA afirma que los clientes ven que las tasas de aciertos de la caché de KV aumentan al 96-99 % para las cargas de trabajo de los agentes, junto con ganancias de eficiencia de hasta 4,2 veces más tokens producidos por GPU.

Ben-David lo dijo simplemente: “Imagina que tienes 100 GPU produciendo una cierta cantidad de tokens. Ahora imagina que esas cien GPU funcionan como si fueran 420 GPU”.

Para los grandes proveedores de inferencias, el resultado no es sólo un mejor desempeño, sino que se traduce directamente en un impacto económico real.

“Con solo agregar esta capa de caché KV acelerada, estamos analizando algunos casos de uso en los que el ahorro sería de millones de dólares por día”, dijo Ben-David.

Este multiplicador de eficiencia también abre nuevas opciones estratégicas para las empresas. Los equipos de plataforma pueden diseñar agentes con estado sin preocuparse por quedarse sin presupuestos de memoria. Los proveedores de servicios pueden ofrecer niveles de precios persistentes basados ​​en el contexto, con inferencia en caché proporcionada a un costo dramáticamente menor.

¿Qué sigue?

NVIDIA proyecta un aumento de 100 veces en la demanda de inferencia a medida que la IA del agente se convierta en la carga de trabajo dominante. Esta presión ya está pasando de los hiperescaladores a las implementaciones empresariales cotidianas; esto ya no es solo un problema de las “grandes tecnologías”.

A medida que las empresas pasan de las pruebas de concepto a los sistemas de producción reales, la persistencia de la memoria se está convirtiendo en una preocupación central de la infraestructura. Las organizaciones que traten esto como una prioridad arquitectónica en lugar de una idea de último momento obtendrán una clara ventaja tanto en costo como en rendimiento.

El muro de la memoria no es algo en lo que las organizaciones puedan simplemente gastar más dinero para superarlo. A medida que la IA de los agentes crece, es uno de los primeros límites de la infraestructura de IA que obliga a un replanteamiento más profundo y, como dejan en claro las ideas de Ben-David, la memoria también puede ser el lugar donde comienza la próxima ola de diferenciación competitiva.

Fuente