Los investigadores de Nvidia han desarrollado una técnica que puede reducir hasta ocho veces los costos de memoria del razonamiento de modelos de lenguaje grandes. Su técnica, llamada escasez de memoria dinámica (DMS), comprime la memoria caché de valor clave (KV), la memoria temporal que los LLM generan y almacenan a medida que procesan indicaciones y razonan problemas y documentos.
Aunque los investigadores han propuesto varios métodos para comprimir este caché antes, la mayoría tiene dificultades para hacerlo sin degradar la inteligencia del modelo. El enfoque de Nvidia logra descartar gran parte del caché mientras mantiene (y en algunos casos mejora) las capacidades de razonamiento del modelo.
Los experimentos muestran que DMS permite a los LLM “pensar” más y explorar más soluciones sin la penalización habitual en velocidad o costos de memoria.
El cuello de botella del razonamiento
Los LLM mejoran su desempeño en tareas complejas, generando “cadena de pensamiento“tokens, esencialmente escribiendo los pasos de razonamiento antes de llegar a una respuesta final. Las técnicas de escala de tiempo de inferencia aprovechan esto, dando al modelo un presupuesto mayor para generar estos tokens de pensamiento o para explorar múltiples caminos potenciales de razonamiento en paralelo.
Sin embargo, este razonamiento mejorado tiene un costo computacional significativo. A medida que el modelo genera más tokens, crea un Caché KV.
Para aplicaciones del mundo real, la caché KV es un cuello de botella importante. A medida que crece la cadena de razonamiento, la caché crece linealmente, consumiendo grandes cantidades de memoria en las GPU. Esto obliga al hardware a dedicar más tiempo a leer datos de la memoria que a computarlos, lo que ralentiza la generación y aumenta la latencia. También limita la cantidad de usuarios que un sistema puede atender simultáneamente, ya que quedarse sin VRAM hace que el sistema falle o se ralentice.
Los investigadores de Nvidia plantean esto no sólo como un obstáculo técnico, sino también como un obstáculo económico fundamental para la empresa.
“La pregunta no es sólo la cantidad de hardware; se trata de si su infraestructura está procesando 100 subprocesos de razonamiento u 800 subprocesos por el mismo costo”, dijo a VentureBeat Piotr Nawrot, ingeniero senior de aprendizaje profundo de Nvidia.
Los intentos anteriores de resolver esto se han centrado en enfoques basados en heurísticas. Estos métodos utilizan reglas estrictas, como una “ventana deslizante” que almacena en caché sólo los tokens más recientes y elimina el resto. Si bien esto reduce el uso de memoria, a menudo obliga al modelo a descartar información crítica necesaria para resolver el problema, lo que degrada la precisión de la salida.
“Los métodos de desalojo estándar intentan seleccionar tokens viejos y no utilizados para el desalojo utilizando heurísticas”, dijeron los investigadores. “Simplifican el problema, con la esperanza de que si se aproximan a la mecánica interna del modelo, la respuesta seguirá siendo correcta”.
Otras soluciones utilizan paginación para descargar porciones no utilizadas de la caché KV a una memoria más lenta, pero el intercambio constante de datos introduce una sobrecarga de latencia que ralentiza las aplicaciones en tiempo real.
Dispersión de la memoria dinámica
DMS adopta un enfoque diferente al “adaptar” los LLM existentes para gestionar de forma inteligente su propia memoria. En lugar de aplicar una regla fija sobre qué eliminar, DMS entrena el modelo para identificar qué tokens son esenciales para el razonamiento futuro y cuáles son desechables.
“No sólo adivina la importancia; aprende una política que preserva explícitamente la distribución final de la producción del modelo”, dijo Nawrot.
El proceso convierte un LLM estándar previamente entrenado, como Llama 3 o Qwen 3, en un modelo autocompactante. Fundamentalmente, esto no requiere entrenar el modelo desde cero, lo que sería prohibitivamente costoso. En cambio, DMS reutiliza las neuronas existentes en las capas de atención del modelo para generar una señal de “retención” o “descarga” para cada token.
Para los equipos preocupados por la complejidad de la modernización, los investigadores notaron que el proceso fue diseñado para ser liviano. “Para mejorar la eficiencia de este proceso, los pesos del modelo se pueden congelar, lo que hace que el proceso sea similar a la Adaptación de rango bajo (LoRA)”, dijo Nawrot. Esto significa que un modelo empresarial estándar como el Qwen3-8B “se puede adaptar con DMS en unas pocas horas en un solo DGX H100”.
Una de las partes importantes del DMS es un mecanismo llamado “desalojo retrasado”. En la dispersión estándar, si se descubre que un token no es importante, se elimina inmediatamente. Esto es arriesgado porque el modelo puede necesitar una fracción de segundo para integrar el contexto de ese token en su estado actual.
DMS mitiga esto marcando un token para desalojo pero manteniéndolo accesible durante un corto período de tiempo (por ejemplo, unos cientos de pasos). Este retraso permite que el modelo “extraiga” cualquier información necesaria restante del token y la combine en el contexto actual antes de que el token se borre de la caché de KV.
“El mecanismo de ‘desalojo retrasado’ es crucial porque no todos los tokens son simplemente ‘importantes’ (conservar para siempre) o ‘inútiles’ (eliminar inmediatamente). Muchos se encuentran en el medio: contienen cierta información, pero no la suficiente como para justificar que ocupen un espacio completo en la memoria”, dijo Nawrot. “Aquí es donde radica la redundancia. Al mantener estos tokens en una ventana local durante un corto período antes del desalojo, permitimos que el modelo los atienda y redistribuya su información en tokens futuros”.
Los investigadores han descubierto que este proceso de modernización es muy eficiente. Podrían equipar un LLM previamente capacitado con DMS en solo 1000 pasos de capacitación, una pequeña fracción del cálculo requerido para la capacitación original. Los modelos resultantes utilizan núcleos estándar y se pueden colocar directamente en pilas de inferencia de alto rendimiento existentes sin hardware personalizado ni reescrituras complejas de software.
DMS en acción
Para validar la técnica, los investigadores aplicaron DMS a varios modelos de razonamiento, incluida la serie Qwen-R1 (destilada de DeepSeek R1) y Llama 3.2, y los probaron en puntos de referencia difíciles como AIME 24 (matemáticas), GPQA Diamond (ciencia) y LiveCodeBench (codificación).
Los resultados muestran que DMS mueve efectivamente la frontera de Pareto, el equilibrio óptimo entre costo y rendimiento. En la prueba comparativa matemática AIME 24, un modelo Qwen-R1 32B equipado con DMS logró una puntuación 12,0 puntos superior a un modelo estándar cuando se limitó al mismo presupuesto de ancho de banda de memoria. Al comprimir el caché, el modelo podría “pensar” mucho más profundamente y de manera más amplia que el modelo estándar con la misma memoria y presupuesto de computación.
Quizás lo más sorprendente es que DMS ha desafiado la creencia convencional de que la compresión perjudica la comprensión de contextos prolongados. En las pruebas de “aguja en un pajar”, que miden la capacidad de un modelo para encontrar información específica oculta en un documento grande, las variantes de DMS en realidad superaron a los modelos estándar. Al gestionar activamente su memoria, en lugar de acumular ruido pasivamente, el modelo mantuvo un contexto más limpio y útil.
Para la infraestructura empresarial, las ganancias en eficiencia se traducen directamente en ingresos y ahorros de hardware. Debido a que la memoria caché es significativamente más pequeña, la GPU dedica menos tiempo a buscar datos, lo que reduce el tiempo de espera de los usuarios. En las pruebas con el modelo Qwen3-8B, DMS igualó la precisión del modelo básico y proporcionó un rendimiento hasta 5 veces mayor. Esto significa que un único servidor puede manejar cinco veces más consultas de clientes por segundo sin que la calidad disminuya.
El futuro de la memoria
Nvidia lanzó DMS como parte de su Biblioteca KVPress. En cuanto a cómo las empresas pueden empezar a utilizar DMS, Nawrot enfatizó que la barrera de entrada es baja. “La ‘infraestructura mínima viable’ son los canales estándar de Hugging Face; no se requiere un kernel CUDA personalizado”, dijo Nawrot, señalando que el código es totalmente compatible con FlashAttention estándar.
De cara al futuro, el equipo ve a DMS como parte de un cambio más amplio en el que la gestión de la memoria se convierte en una capa distinta e inteligente de la pila de IA. Nawrot también confirmó que DMS es “totalmente compatible” con arquitecturas más nuevas como Atención latente de múltiples cabezas (MLA) utilizado en los modelos DeepSeek, lo que sugiere que la combinación de estos enfoques podría generar ganancias de eficiencia aún mayores.
A medida que las empresas pasan de simples chatbots a complejos sistemas de agentes que requieren un razonamiento extenso, el costo de la inferencia se convierte en una preocupación principal. Técnicas como DMS proporcionan un camino para escalar de manera sostenible estas capacidades.
“Apenas hemos arañado la superficie de lo que es posible”, dijo Nawrot, “y esperamos que la escala temporal de inferencia evolucione aún más”.















