Los sistemas multiagente, diseñados para manejar tareas a largo plazo, como ingeniería de software o detección de ciberseguridad, pueden generar hasta 15 veces el volumen simbólico de los chats estándar, lo que amenaza su rentabilidad en el manejo de tareas empresariales.

Pero hoy, Nvidia buscó ayudar a resolver este problema con el lanzamiento de Nemotron 3 Superun modelo híbrido de 120 mil millones de parámetros, con pesos publicados en abrazando la cara.

Al fusionar filosofías arquitectónicas dispares (modelos de espacio de estado, transformadores y un nuevo diseño de mezcla experto “latente”), Nvidia está tratando de proporcionar la profundidad especializada necesaria para los flujos de trabajo de los agentes sin la sobrecarga típica de los modelos de razonamiento denso y todo disponible para uso comercial bajo pesos mayoritariamente abiertos.

Arquitectura triple híbrida

En el corazón de Nemotron 3 Super hay una tríada arquitectónica sofisticada que equilibra la eficiencia de la memoria con un razonamiento preciso. El modelo utiliza un Columna vertebral híbrida Mamba-Transformerque intercala capas de Mamba-2 con capas estratégicas de atención de Transformer.

Para comprender las implicaciones para la producción empresarial, consideremos el problema de la “aguja en un pajar”. Las capas Mamba-2 actúan como un sistema de autopistas de “viaje rápido”, manejando la gran mayoría del procesamiento de secuencias con complejidad de tiempo lineal. Esto permite que el modelo mantenga una enorme ventana de contexto de 1 millón de tokens sin que se dispare el consumo de memoria del caché KV. Sin embargo, los modelos de espacio de estados puros a menudo tienen problemas con el recuerdo asociativo.

Para solucionar este problema, Nvidia inserta estratégicamente capas de atención de Transformer como “anclas globales”, asegurando que el modelo pueda recuperar con precisión hechos específicos enterrados en lo profundo de una base de código o una pila de informes financieros.

Además de la columna vertebral, el modelo introduce Mezcla latente de expertos (LatentMoE). Los proyectos tradicionales de combinación de expertos (MoE) envían tokens para los expertos a través de su dimensión oculta, lo que crea un cuello de botella computacional a medida que los modelos escalan. LatentMoE resuelve esto proyectando tokens en un espacio comprimido antes de reenviarlos a los expertos.

Esta “compresión de expertos” permite que el modelo consulte cuatro veces más expertos por el mismo costo computacional. Esta granularidad es vital para los agentes que necesitan cambiar entre la sintaxis de Python, la lógica de SQL y el razonamiento conversacional en un solo turno.

Para acelerar aún más el modelo está la predicción multitoken (MTP). Mientras que los modelos estándar predicen un único token próximo, MTP predice múltiples tokens venideros simultáneamente. Esto sirve como un “modelo scratch integrado”, que permite la decodificación especulativa nativa que puede proporcionar velocidades de reloj de hasta 3 veces para tareas de generación estructuradas, como código o llamadas a herramientas.

La ventaja de Blackwell

Para las empresas, el salto técnico más significativo del Nemotron 3 Super es su optimización para la plataforma GPU Nvidia Blackwell. Mediante un entrenamiento previo nativo en NVFP4 (punto flotante de 4 bits), Nvidia logró un gran avance en la eficiencia de la producción.

En Blackwell, el modelo ofrece una inferencia 4 veces más rápida que los modelos de 8 bits que se ejecutan en la arquitectura Hopper anterior, sin pérdida de precisión.

En la práctica, Nemotron 3 Super es una herramienta especializada para el razonamiento de agentes.

Actualmente ocupa el puesto número 1 en DeepResearch Bench, un punto de referencia que mide la capacidad de una IA para realizar búsquedas exhaustivas de varios pasos en grandes conjuntos de documentos.

Referencia

Nemotrón 3 Súper

Qwen3.5-122B-A10B

GPT-OSS-120B

Conocimiento general

MMLU-Pro

83,73

86,70

81.00

Razonamiento

AIME25 (sin herramientas)

90.21

90.36

92,50

HMMT 25 de febrero (sin herramientas)

93,67

91,40

90.00

HMMT 25 de febrero (con herramientas)

94,73

89,55

GPQA (sin herramientas)

79,23

86,60

80.10

GPQA (con herramientas)

82,70

80.09

LiveCodeBench (v5 2024-07↔2024-12)

81.19

78,93

88.00

SciCode (subtarea)

42.05

42:00

39:00

HLE (sin herramientas)

18:26

25:30

14:90

HLE (con herramientas)

22,82

19.0

Agente

Banco terminal (subconjunto rígido)

25,78

26,80

24:00

Banco de terminales Core 2.0

31:00

37,50

18:70

Banco SWE (manos abiertas)

60,47

66,40

41,9

Banco SWE (código abierto)

59.20

67,40

Banco SWE (Códex)

53,73

61.20

SWE-Bench Multilingüe (OpenHands)

45,78

30,80

Banco Tau V2

Aerolínea

56,25

66.0

49.2

Minorista

62,83

62,6

67,80

Telecomunicaciones

64,36

95.00

66.00

Promedio

61,15

74,53

61.0

BrowseComp con búsqueda

31.28

33,89

Banco de pájaros

41,80

38.25

Chatear y seguir instrucciones

IFBench (rápido)

72,56

73,77

68,32

Escale múltiples desafíos de IA

55.23

61,50

58,29

Arena-Duro-V2

73,88

75,15

90.26

Contexto largo

AA-LCR

58,31

66,90

51.00

REGLA @ 256k

96:30

96,74

52:30

REGLA @ 512k

95,67

95,95

46,70

REGLA @ 1M

91,75

91,33

22:30 h.

Plurilingüe

MMLU-ProX (longitud promedio)

79,36

85.06

76,59

WMT24++ (pt→xx)

86,67

87,84

88,89

También demuestra importantes ventajas de rendimiento, logrando un rendimiento hasta 2,2 veces mayor que gpt-oss-120B y 7,5 veces mayor que Qwen3.5-122B en configuraciones de alto volumen.

Licencia ‘abierta’ personalizada: uso comercial, pero con importantes salvedades

El lanzamiento de Nemotron 3 Super bajo el Acuerdo de licencia de modelo abierto de Nvidia (actualizado en octubre de 2025) proporciona un marco permisivo para la adopción empresarial, aunque contiene distintas cláusulas de “protección” que lo diferencian de las licencias puras de código abierto como MIT o Apache 2.0.

Disposiciones clave para usuarios empresariales:

  • Usabilidad comercial: La licencia establece explícitamente que las plantillas son “utilizables comercialmente” y otorga una licencia perpetua, mundial y libre de regalías para vender y distribuir productos creados en base a la plantilla.

  • Propiedad de salida: Nvidia no reclama los resultados generados por el modelo; La responsabilidad de estos resultados (y la propiedad de ellos) recae enteramente en el usuario.

  • Obras derivadas: Las empresas son libres de crear y poseer “modelos derivados” (versiones modificadas) siempre que incluyan el aviso de atribución requerido: “Con licencia de Nvidia Corporation bajo la licencia de modelo abierto de Nvidia”.

Las “líneas rojas”:

La licencia incluye dos desencadenantes de terminación críticos que los equipos de producción deben monitorear:

  1. Barandillas de seguridad: La licencia termina automáticamente si un usuario pasa por alto o elude las “barandillas” del modelo (limitaciones técnicas o hiperparámetros de seguridad) sin implementar un reemplazo “sustancialmente similar” apropiado para el caso de uso.

  2. Desencadenante del litigio: Si un usuario inicia un litigio de derechos de autor o patentes contra Nvidia, alegando que la plantilla infringe su propiedad intelectual, su licencia para usar la plantilla terminará inmediatamente.

Este marco permite a Nvidia promover un ecosistema comercial mientras se protege del “trolling de IP” y garantiza que el modelo no sea despojado de sus características de seguridad para uso malicioso.

“El equipo realmente cocinó”

El lanzamiento generó un gran revuelo en la comunidad de desarrolladores. Chris Alexiuk, ingeniero senior de investigación de productos de Nvidia, anunció el lanzamiento de X bajo su liderazgo @llm_wizard como un “SUPER DÍA”, destacando la rapidez y transparencia del modelo. “El modelo es: RÁPIDO. El modelo es: INTELIGENTE. El modelo es: EL MODELO MÁS ABIERTO QUE HEMOS HECHO JAMÁS”. Chris publicó, destacando el lanzamiento no solo de pesas, sino también de 10 billones de tokens de datos e ingresos por capacitación.

La adopción de la industria refleja este entusiasmo:

  • Nube y hardware: El modelo se está implementando como Microservicio NIM de Nvidiapermitiéndole ejecutarse localmente a través de Fábrica de IA de Dell o HPEasí como Google Cloud, Oracle y próximamente AWS y Azure.

  • Agentes de producción: Empresas como Código de conejo (desarrollo de software) y greptil están integrando el modelo para manejar revisiones de base de código a gran escala, mientras que a los líderes de la industria les gusta siemens y Palantir lo están implementando para automatizar flujos de trabajo complejos en fabricación y ciberseguridad.

Como señaló Kari Briski, vicepresidente de software de inteligencia artificial de Nvidia: “A medida que las empresas van más allá de los chatbots y adoptan aplicaciones multiagente, se topan… con una explosión de contexto”.

Nemotron 3 Super es la respuesta de Nvidia a esta explosión: un modelo que proporciona el “poder intelectual” de un sistema de parámetros de 120B con la eficiencia operativa de un especialista mucho más pequeño. Para las empresas, el mensaje es claro: el “impuesto al pensamiento” finalmente está cayendo.

Fuente