La gran noticia de esta semana de Nvidia, que apareció en los titulares de todos los medios de comunicación, fue el anuncio de la compañía de su GPU Vera Rubin.

Esta semana, el director ejecutivo de Nvidia, Jensen Huang, utilizó su discurso de apertura en CES para resaltar las métricas de rendimiento del nuevo chip. Según Huang, la GPU Rubin es capaz de realizar 50 PFLOP de inferencia NVFP4 y 35 PFLOP de rendimiento de entrenamiento NVFP4, lo que representa 5 y 3,5 veces el rendimiento del Blackwell.

Pero no estará disponible hasta la segunda mitad de 2026. Entonces, ¿qué deberían hacer las empresas ahora?

Blackwell continúa mejorando

La arquitectura GPU actual de Nvidia es Blackwell, que fue anunciado en 2024 como sucesor de Hopper. Junto con este lanzamiento, Nvidia enfatizó que su camino de ingeniería de productos también incluía exprimir el mayor rendimiento posible de la arquitectura Grace Hopper anterior.

Es una dirección que también se aplicará a Blackwell, ya que Vera Rubin llegará a finales de este año.

“Continuamos optimizando nuestras pilas de inferencia y capacitación para la arquitectura Blackwell”, dijo a VentureBeat Dave Salvator, director de productos de computación acelerada de Nvidia.

En la misma semana en que Vera Rubin fue elogiada por el CEO de Nvidia como su GPU más poderosa hasta la fecha, la compañía publicó un nuevo buscar mostrando un rendimiento mejorado de Blackwell.

Cómo el rendimiento de Blackwell mejoró la inferencia en 2,8 veces

Nvidia pudo aumentar el rendimiento de la GPU Blackwell hasta 2,8 veces por GPU en un período de sólo tres meses.

Las mejoras de rendimiento provienen de una serie de innovaciones que se han agregado al motor de inferencia Nvidia TensorRT-LLM. Estas optimizaciones se aplican al hardware existente, lo que permite que las implementaciones actuales de Blackwell alcancen un mayor rendimiento sin cambios de hardware.

Las ganancias de rendimiento se miden en DeepSeek-R1, un modelo de combinación de expertos (MoE) de 671 mil millones de parámetros que activa 37 mil millones de parámetros por token.

Entre las innovaciones técnicas que proporcionan un mayor rendimiento:

  • Versión dependiente programática (PDL): La implementación ampliada reduce las latencias de arranque del kernel, lo que aumenta el rendimiento.

  • Comunicación de todos a todos: La nueva implementación de primitivas de comunicación elimina un búfer intermedio, lo que reduce la sobrecarga de memoria.

  • Pronóstico de tokens múltiples (MTP): Genera múltiples tokens por pasada en lugar de uno a la vez, lo que aumenta el rendimiento en múltiples longitudes de cadena.

  • Formato NVFP4: Un formato de punto flotante de 4 bits acelerado por hardware en Blackwell que reduce los requisitos de ancho de banda de la memoria y al mismo tiempo preserva la precisión del modelo.

Las optimizaciones reducen el costo por millón de tokens y permiten que la infraestructura existente atienda mayores volúmenes de solicitudes con menor latencia. Los proveedores de nube y las empresas pueden escalar sus servicios de IA sin actualizaciones inmediatas de hardware.

Blackwell también vio mejoras en el rendimiento del entrenamiento

Blackwell también se utiliza ampliamente como componente de hardware básico para entrenar los modelos de lenguaje más grandes.

En este sentido, Nvidia también informó ganancias significativas para Blackwell cuando se utiliza para entrenamiento de IA.

Desde su lanzamiento inicial, el sistema GB200 NVL72 ha ofrecido un rendimiento de entrenamiento hasta 1,4 veces mayor con el mismo hardware: un aumento del 40 % logrado en sólo cinco meses sin ninguna actualización de hardware.

El impulso en la capacitación provino de una serie de actualizaciones, que incluyen:

  • Recetas de entrenamiento optimizadas. Los ingenieros de Nvidia han desarrollado recetas de capacitación sofisticadas que aprovechan de manera efectiva la precisión de NVFP4. Los envíos iniciales de Blackwell utilizaron la precisión del FP8, pero la transición a recetas optimizadas para NVFP4 ha desbloqueado un rendimiento adicional sustancial del silicio existente.

  • Refinamientos algorítmicos. Las mejoras continuas en la pila de software y las mejoras algorítmicas han permitido que la plataforma extraiga más rendimiento del mismo hardware, lo que demuestra una innovación continua más allá de la implementación inicial.

¿Doblar la apuesta por Blackwell o esperar a Vera Rubin?

Salvator señaló que el Blackwell Ultra de próxima generación es una plataforma líder en la industria construida específicamente para ejecutar modelos y aplicaciones de IA de próxima generación.

Añadió que la plataforma Nvidia Rubin ampliará el liderazgo de mercado de la empresa y permitirá que la próxima generación de MoE impulse una nueva clase de aplicaciones para llevar la innovación en IA aún más lejos.

Salvator explicó que Vera Rubin se creó para satisfacer la creciente demanda de computación creada por el crecimiento continuo en el tamaño del modelo y la generación de tokens de razonamiento de modelos líderes como MoE.

“Blackwell y Rubin pueden ofrecer los mismos modelos, pero la diferencia es el rendimiento, la eficiencia y el costo simbólico”, dijo.

Según los primeros resultados de las pruebas de Nvidia, en comparación con Blackwell, Rubin puede entrenar grandes modelos MoE en una cuarta parte de la cantidad de GPU, inferir la generación de tokens con 10 veces el rendimiento por vatio e inferir 1/10 del costo por token.

“Un mejor rendimiento y eficiencia en el rendimiento de tokens significa que se pueden construir modelos más nuevos con más poder de razonamiento y una interacción más rápida entre agentes, creando mejor inteligencia a un costo menor”, dijo Salvator.

Qué significa todo esto para los creadores de negocios de IA

Para las empresas que hoy implementan infraestructuras de IA, las inversiones actuales en Blackwell siguen siendo sólidas a pesar de la llegada de Vera Rubin a finales de este año.

Las organizaciones con implementaciones de Blackwell existentes pueden obtener inmediatamente una mejora de inferencia de 2,8 veces y un aumento de capacitación de 1,4 veces actualizando a las últimas versiones de TensorRT-LLM, lo que ofrece ahorros de costos reales sin gasto de capital. Para quienes planean nuevas implementaciones en la primera mitad de 2026, tiene sentido continuar con Blackwell. Esperar seis meses significa retrasar las iniciativas de IA y potencialmente quedarse atrás de los competidores que ya las están implementando hoy.

Sin embargo, las empresas que planean construcciones de infraestructura a gran escala para finales de 2026 y más allá deberían incluir a Vera Rubin en sus hojas de ruta. La mejora de 10 veces en el rendimiento por vatio y una décima parte del costo por token representa un ahorro transformacional para las operaciones de IA a escala.

El enfoque inteligente es la implementación por fases: aproveche Blackwell para las necesidades inmediatas mientras diseña sistemas que puedan incorporar Vera Rubin cuando esté disponible. El modelo de optimización continua de Nvidia significa que no se trata de una elección binaria; Las empresas pueden maximizar el valor de las implementaciones actuales sin sacrificar la competitividad a largo plazo.

Fuente