Reducir el costo de la inferencia suele ser una combinación de hardware y software. Un nuevo análisis publicado el jueves por Nvidia detalla cómo cuatro proveedores de inferencia líderes informan reducciones de 4 a 10 veces en el costo por token.
Las drásticas reducciones de costos se lograron utilizando la plataforma Blackwell de Nvidia con modelos de código abierto. Los datos de implementación de producción de Baseten, DeepInfra, Fireworks AI y Together AI muestran importantes mejoras de costos en atención médica, juegos, chat de agentes y servicio al cliente a medida que las empresas escalan la IA desde proyectos piloto a millones de usuarios.
Las reducciones de costos de 4 a 10 veces reportadas por los proveedores de inferencia requirieron combinar el hardware de Blackwell con otros dos elementos: pilas de software optimizadas y pasar de modelos propietarios a modelos de código abierto que ahora coinciden con la inteligencia de vanguardia. Según el análisis, las mejoras de hardware por sí solas generaron ganancias 2 veces mayores en algunas implementaciones. Lograr mayores reducciones de costos requirió adoptar formatos de baja precisión como NVFP4 y alejarse de las API de código cerrado que cobran tarifas premium.
La economía resulta contradictoria. Reducir los costos de inferencia requiere invertir en infraestructura de mayor rendimiento porque las mejoras en el rendimiento se traducen directamente en menores costos por token.
“El rendimiento es lo que reduce el costo de la inferencia”, dijo a VentureBeat Dion Harris, director senior de soluciones de inteligencia artificial y HPC de hiperescalado en Nvidia, en una entrevista exclusiva. “Lo que estamos viendo en la inferencia es que el rendimiento se traduce literalmente en valor real en dólares y reduce el costo”.
Las implementaciones de producción muestran reducciones de costos de 4 a 10 veces
Nvidia detalló cuatro implementaciones de clientes en una publicación de blog que muestra cómo la combinación de la infraestructura de Blackwell, las pilas de software optimizadas y los modelos de código abierto brindan reducciones de costos en diferentes cargas de trabajo de la industria. Los estudios de caso cubren aplicaciones de gran volumen donde la economía de inferencia determina directamente la viabilidad empresarial.
Sully.ai redujo los costos de inferencia de IA en atención médica en un 90% (una reducción de 10 veces) y mejoró los tiempos de respuesta en un 65% al pasar de modelos propietarios a modelos de código abierto que se ejecutan en la plataforma Blackwell de Baseten, según Nvidia. La empresa ha devuelto a los médicos más de 30 millones de minutos al automatizar tareas de codificación médica y toma de notas que antes requerían la entrada manual de datos.
Nvidia también informó que Latitude redujo 4 veces los costos de inferencia de juegos para su plataforma AI Dungeon al ejecutar grandes modelos Mixture of Experts (MoE) en la implementación de Blackwell de DeepInfra. El costo por millón de tokens cayó de 20 centavos en la plataforma Hopper anterior de Nvidia a 10 centavos en Blackwell, y luego a 5 centavos tras la adopción del formato NVFP4 nativo de baja precisión de Blackwell. El hardware por sí solo proporcionó una mejora de 2x, pero llegar a 4x requirió cambiar el formato de precisión.
Según Nvidia, Sentient Foundation logró entre un 25 % y un 50 % más de rentabilidad para su plataforma de chat de agentes utilizando la pila de inferencia optimizada para Blackwell de Fireworks AI. La plataforma organiza flujos de trabajo complejos de múltiples agentes y procesó 5,6 millones de consultas en una sola semana durante su lanzamiento viral manteniendo una baja latencia.
Nvidia dijo que Decagon logró una reducción de costos por consulta de 6 veces para la atención al cliente de voz basada en IA al ejecutar su pila multimodelo en la infraestructura Blackwell de Together AI. Los tiempos de respuesta se mantuvieron por debajo de los 400 milisegundos incluso al procesar miles de tokens por consulta, lo cual es fundamental para las interacciones de voz donde los retrasos hacen que los usuarios cuelguen o pierdan la confianza.
Factores técnicos que impulsan mejoras de 4x frente a 10x
El rango de reducciones de costos de 4 a 10 veces en las implementaciones refleja diferentes combinaciones de optimizaciones técnicas en lugar de solo diferencias de hardware. Tres factores emergen como impulsores clave: adopción de formato de precisión, opciones de arquitectura de modelo e integración de la pila de software.
Los formatos de precisión muestran el impacto más claro. El caso de Latitude lo demuestra directamente. La mudanza de Hopper a Blackwell generó un ahorro de costos duplicado a través de mejoras de hardware. La adopción de NVFP4, el formato nativo de baja precisión de Blackwell, duplicó esta mejora a 4 veces el total. NVFP4 reduce la cantidad de bits necesarios para representar los pesos y activaciones del modelo, lo que permite una mayor computación por ciclo de GPU y al mismo tiempo mantiene la precisión. El formato funciona particularmente bien para los modelos MoE, donde solo se activa un subconjunto del modelo para cada solicitud de inferencia.
La arquitectura del modelo es importante. Los modelos MoE, que activan diferentes submodelos especializados en función de las entradas, se benefician del marco NVLink de Blackwell, que permite una comunicación rápida entre expertos. “Tener a estos expertos comunicándose a través del marco NVLink le permite razonar muy rápidamente”, dijo Harris. Los modelos densos que activan todos los parámetros para cada inferencia no aprovechan esta arquitectura con tanta eficacia.
La integración de la pila de software crea deltas de rendimiento adicionales. Harris dijo que el enfoque de codiseño de Nvidia, donde el hardware Blackwell, la arquitectura escalada NVL72 y el software como Dynamo y TensorRT-LLM se optimizan juntos, también marca la diferencia. La implementación de Baseten para Sully.ai utilizó esta pila integrada, combinando NVFP4, TensorRT-LLM y Dynamo para lograr ahorros de costos 10 veces mayores. Los proveedores que ejecutan marcos alternativos como vLLM pueden ver ganancias menores.
Las características de la carga de trabajo importan. Los modelos de razonamiento tienen ventajas particulares en Blackwell porque generan significativamente más tokens para mejores respuestas. La capacidad de la plataforma para procesar estas secuencias de tokens extendidas de manera eficiente a través de un servicio desagregado, donde el llenado previo del contexto y la generación de tokens se manejan por separado, hace que las cargas de trabajo de razonamiento sean rentables.
Los equipos que evalúan posibles ahorros de costos deben examinar sus perfiles de carga de trabajo en función de estos factores. Las cargas de trabajo de alta generación de tokens que utilizan modelos mixtos expertos con la pila de software integrada de Blackwell se acercarán al rango de 10x. Los volúmenes de tokens más bajos que utilizan modelos densos en estructuras alternativas alcanzarán cerca de 4 veces.
Qué deberían probar los equipos antes de migrar
Si bien estos estudios de caso se centran en las implementaciones de Nvidia Blackwell, las empresas tienen varios caminos para reducir los costos de inferencia. La serie MI300 de AMD, las TPU de Google y los aceleradores de inferencia especializados de Groq y Cerebras ofrecen arquitecturas alternativas. Los proveedores de nube también continúan optimizando sus servicios de inferencia. La pregunta no es si Blackwell es la única opción, sino si la combinación específica de hardware, software y modelos cumple con los requisitos de carga de trabajo específicos.
Las empresas que estén considerando la inferencia basada en Blackwell deberían comenzar calculando si sus cargas de trabajo justifican cambios en la infraestructura.
“Las empresas necesitan trabajar en función de sus cargas de trabajo, casos de uso y limitaciones de costos”, dijo a VentureBeat Shruti Koparkar, marketing de productos de inteligencia artificial de Nvidia.
Todas las implementaciones que lograron mejoras de 6 a 10 veces involucraron aplicaciones de gran volumen sensibles a la latencia que procesaban millones de solicitudes mensualmente. Los equipos que ejecutan volúmenes más bajos o aplicaciones con presupuestos de latencia superiores a un segundo deben explorar la optimización del software o el cambio de modelo antes de considerar actualizaciones de infraestructura.
Las pruebas son más importantes que las especificaciones del proveedor. Koparkar enfatiza que los proveedores publican métricas de rendimiento y latencia, pero estas representan condiciones ideales.
“Si se trata de una carga de trabajo altamente sensible a la latencia, es posible que deseen probar algunos proveedores y ver quién cumple con el mínimo requerido manteniendo el costo bajo”, dijo. Los equipos deben ejecutar cargas de trabajo de producción reales entre múltiples proveedores de Blackwell para medir el rendimiento real en función de sus patrones de uso específicos y picos de tráfico, en lugar de depender de puntos de referencia publicados.
El enfoque por fases utilizado por Latitude proporciona un modelo para evaluar. La empresa primero pasó al hardware Blackwell y midió una mejora de 2x, luego adoptó el formato NVFP4 para lograr una reducción total de 4x. Los equipos que actualmente utilizan Hopper u otra infraestructura pueden probar si los cambios precisos en el factor de forma y la optimización del software en el hardware existente generan ahorros significativos antes de comprometerse con migraciones completas de la infraestructura. La ejecución de modelos de código abierto en la infraestructura actual puede proporcionar la mitad del ahorro potencial de costos sin nuevas inversiones en hardware.
La selección de proveedores requiere comprender las diferencias en la pila de software. Aunque varios proveedores ofrecen infraestructura Blackwell, sus implementaciones de software varían. Algunos ejecutan la pila integrada de Nvidia usando Dynamo y TensorRT-LLM, mientras que otros usan marcos como vLLM. Harris reconoce que existen deltas de rendimiento entre estas configuraciones. Los equipos deben evaluar qué realiza realmente cada proveedor y cómo cumple con los requisitos de carga de trabajo, en lugar de asumir que todas las implementaciones de Blackwell funcionan de manera idéntica.
La ecuación económica va más allá del coste por token. Los proveedores de inferencia especializados como Baseten, DeepInfra, Fireworks y Together ofrecen implementaciones optimizadas pero requieren gestionar relaciones con proveedores adicionales. Los servicios administrados de AWS, Azure o Google Cloud pueden tener costos por token más altos pero una menor complejidad operativa. Los equipos deben calcular el costo total, incluidos los gastos operativos, no solo los precios de inferencia, para determinar qué enfoque ofrece los mejores ahorros para su situación específica.















