Investigadores de Nvidia y la Universidad de Hong Kong han lanzado Orchestrator, un modelo de 8 mil millones de parámetros que coordina diferentes herramientas y modelos de lenguaje grande (LLM) para resolver problemas complejos. En sus experimentos, Orchestrator logró una mayor precisión a un costo menor que modelos mucho más grandes en los puntos de referencia de uso de herramientas, al mismo tiempo que se alineaba con las preferencias del usuario sobre qué herramientas usar para una consulta determinada.
El modelo fue entrenado usando HerramientaOrquestaun nuevo marco de aprendizaje por refuerzo (RL) para entrenar modelos pequeños para que actúen como coordinadores inteligentes. El enfoque se basa en la idea de que un pequeño “orquestador” que gestione un equipo diverso de modelos y herramientas especializados puede ser más eficaz y eficiente que un único sistema monolítico de IA.
Los hallazgos sugieren que este enfoque compuesto podría allanar el camino para sistemas de razonamiento de IA más prácticos y escalables en las empresas.
Los límites del uso actual de la herramienta LLM
Dar LLM acceso a herramientas externas Es una forma prometedora de ampliar sus capacidades más allá de los datos de capacitación y hacia las tareas de la agencia. Al aprovechar recursos como motores de búsqueda e intérpretes de códigos, los agentes de IA pueden mejorar su precisión y realizar tareas dentro de la aplicación.
Sin embargo, en documento adjuntoLos investigadores sostienen que el enfoque actual para crear agentes de usuario de herramientas no aprovecha todo el potencial de este paradigma. La mayoría de los sistemas equipan un modelo único y potente con un conjunto de herramientas básicas, como una búsqueda web o una calculadora.
Sostienen que los humanos, cuando razonan, “rutinariamente se extienden recurriendo a recursos de inteligencia superiores a los humanos, desde expertos en el campo hasta procesos y sistemas de software sofisticados”. En consecuencia, los LLM deben poder interactuar con una amplia gama de herramientas en diferentes capacidades.
El paradigma de orquestación de herramientas
El artículo propone un cambio de un sistema de modelo único a un sistema compuesto gestionado por un modelo ligero de “orquestador”. El trabajo del orquestador es analizar una tarea compleja y desglosarla, invocando las herramientas adecuadas en el orden correcto para llegar a una solución.
Este conjunto de herramientas incluye no sólo utilidades estándar como búsqueda web e intérpretes de código, sino también otros LLM con múltiples funciones que funcionan como “herramientas inteligentes”. Por ejemplo, el orquestador podría delegar una pregunta cuantitativa a un modelo centrado en matemáticas o un desafío de programación a un modelo de generación de código. En lugar de colocar toda la carga cognitiva en un modelo grande y generalista, el orquestador delega subproblemas restringidos a herramientas inteligentes especializadas.
Basándose en este concepto, los investigadores desarrollaron ToolOrchestra, un método que usa RL entrenar un modelo de lenguaje pequeño para que actúe como orquestador. El modelo aprende cuándo y cómo recurrir a otros modelos y herramientas y cómo combinar sus resultados en un razonamiento de bucles múltiples. Las herramientas se definen en formato JSON simple, especificando nombre, descripción y parámetros.
El proceso de formación de RL está guiado por un sistema de recompensas que produce un agente controlable y rentable. La recompensa equilibra tres objetivos: corrección de la respuesta final, eficiencia en costos y latencia, y alineación con las preferencias del usuario. Por ejemplo, el sistema es penalizado por el uso excesivo de la computación y es recompensado por elegir herramientas que un usuario ha marcado como preferidas, como favorecer un modelo de código abierto sobre una API propietaria por razones de privacidad. Para respaldar esta capacitación, el equipo también desarrolló un canal de datos automático que generó miles de ejemplos de capacitación verificables en 10 dominios diferentes.
Un pequeño modelo con grandes resultados.
Utilizando ToolOrchestra, los investigadores entrenaron Orchestrator, un modelo de 8 mil millones de parámetros basado en Qwen3-8B. Evaluaron su desempeño en tres puntos de referencia desafiantes: El último examen de la humanidad (hél),, FOTOS y Banco Tau2. Se comparó con varias líneas de base, incluidos LLM grandes y listos para usar, con y sin herramientas.
Los resultados mostraron que incluso los modelos poderosos lucharon sin herramientas, lo que confirma su necesidad de un razonamiento complejo. Si bien agregar herramientas mejoró el rendimiento de los modelos grandes, a menudo generó un fuerte aumento en el costo y la latencia.
Por otro lado, 8B Orchestrator obtuvo resultados impresionantes. En HLE, un punto de referencia para preguntas de nivel doctoral, Orchestrator superó sustancialmente a los métodos anteriores por una fracción del costo computacional. En la prueba de llamada de función Tau2-Bench, programó de manera efectiva diferentes herramientas, llamando a un modelo grande como GPT-5 en solo aproximadamente el 40% de los pasos y usando opciones más baratas para el resto, sin dejar de superar a un agente que usa el modelo grande para cada paso.
Los investigadores observaron que el orquestador entrenado en RL adaptaba su estrategia a nuevos desafíos, mostrando un “alto grado de capacidad de razonamiento general”. Fundamentalmente para las aplicaciones empresariales, Orchestrator también se generalizó bien a modelos y estructuras de precios que no había visto durante la capacitación. Esta flexibilidad hace que el marco sea adecuado para empresas que dependen de una combinación de modelos y herramientas de IA públicos, privados y personalizados. El menor costo, la mayor velocidad y la personalización lo convierten en un enfoque práctico para crear agentes de IA sofisticados y escalables.
A medida que las empresas buscan implementar agentes de IA más avanzados, este enfoque de orquestación ofrece un camino hacia sistemas que no sólo son más inteligentes, sino también más rentables y controlables. (EL Los pesos de los modelos están actualmente disponibles. bajo una licencia no comercial, pero Nvidia también lanzó el código de entrenamiento bajo la permisiva licencia Apache 2.0.)
Como concluye el artículo, el futuro puede estar en versiones aún más avanzadas de este concepto: “De cara al futuro, imaginamos sistemas orquestadores recursivos más sofisticados que superarán el límite superior de la inteligencia. [and] también para aumentar aún más la eficiencia en la resolución de tareas de agentes cada vez más complejas”.

















