Los equipos empresariales que crean sistemas de IA con múltiples agentes pueden estar pagando una prima informática por ganancias que no son sostenibles en condiciones presupuestarias iguales. Una nueva investigación de la Universidad de Stanford encuentra que los sistemas de un solo agente igualan o superan a las arquitecturas de múltiples agentes en tareas de razonamiento complejas cuando a ambos se les asigna el mismo presupuesto de tokens de pensamiento.
Sin embargo, los sistemas multiagente vienen con el equipaje adicional de la sobrecarga computacional. Debido a que normalmente utilizan rastreos de razonamiento más largos y múltiples interacciones, a menudo no está claro si las ganancias reportadas son el resultado de ventajas arquitectónicas o simplemente del consumo de más recursos.
Para aislar el verdadero impulsor del rendimiento, investigadores de la Universidad de Stanford comparó sistemas de agente único con arquitecturas de agentes múltiples en tareas complejas de razonamiento de múltiples saltos con presupuestos iguales de “fichas de pensamiento”.
Sus experimentos muestran que, en la mayoría de los casos, los sistemas de un solo agente igualan o superan a los sistemas de múltiples agentes cuando el cálculo es igual. Los sistemas multiagente obtienen una ventaja competitiva cuando el contexto de un solo agente se vuelve demasiado largo o se corrompe.
En la práctica, esto significa que un modelo de agente único con un presupuesto de pensamiento adecuado puede proporcionar un razonamiento de múltiples saltos más eficiente, confiable y rentable. Los equipos de ingeniería deben reservar sistemas multiagente para escenarios en los que agentes individuales alcanzan un límite de rendimiento.
Comprender la división entre agente único y agente múltiple
Los marcos de múltiples agentes, como los agentes de programación, los sistemas de juego de roles o los enjambres de lluvia de ideas, resuelven un problema al hacer que múltiples modelos operen en contextos parciales. Estos componentes se comunican entre sí, transmitiendo sus respuestas.
Si bien las soluciones de múltiples agentes exhiben un sólido desempeño empírico, compararlas con líneas de base de un solo agente es a menudo una medida inexacta. Las comparaciones se ven muy confundidas por las diferencias en el cálculo del tiempo de prueba. Las configuraciones de múltiples agentes requieren múltiples interacciones entre agentes y generan rastros de razonamiento más largos, lo que significa que consumen significativamente más tokens.
ddEn consecuencia, cuando un sistema multiagente informa una mayor precisión, es difícil determinar si las ganancias surgen de un mejor diseño arquitectónico o de un gasto informático adicional.
Estudios recientes muestran que cuando el presupuesto de cálculo es fijo, las estrategias elaboradas con múltiples agentes a menudo tienen un rendimiento inferior en comparación con líneas de base sólidas de un solo agente. Sin embargo, se trata en su mayoría de comparaciones muy amplias que no tienen en cuenta matices como las diferentes arquitecturas de múltiples agentes o la diferencia entre tokens de aviso y de razonamiento.
“Un punto central de nuestro artículo es que muchas comparaciones entre sistemas de agente único (SAS) y sistemas de agente múltiple (MAS) no son iguales”, dijeron a VentureBeat los autores del artículo Dat Tran y Douwe Kiela. “MAS a menudo logra cálculos de tiempo de prueba más efectivos mediante llamadas adicionales, seguimientos más largos o más pasos de coordinación”.
Revisando el desafío de múltiples agentes bajo presupuestos estrictos
Para crear una comparación justa, los investigadores de Stanford establecieron un presupuesto estricto de “fichas de reflexión”. Esta métrica rastrea la cantidad total de tokens utilizados exclusivamente para el razonamiento intermedio, excluyendo el mensaje inicial y el resultado final.
El estudio evaluó sistemas de agente único y de múltiples agentes en tareas de razonamiento de múltiples saltos, es decir, preguntas que requieren la conexión de múltiples piezas dispares de información para llegar a una respuesta.
Durante sus experimentos, los investigadores notaron que las configuraciones de agente único a veces detienen prematuramente su razonamiento interno, dejando sin gastar el presupuesto informático disponible. Para combatir esto, introdujeron una técnica llamada SAS-L (sistema de agente único con pensamiento más largo).
En lugar de saltar a la orquestación de múltiples agentes cuando un modelo se da por vencido antes de tiempo, los investigadores sugieren un simple cambio presupuestario inmediato.
“La idea de la ingeniería es simple”, dijeron Tran y Kiela. “Primero, reestructurar el mensaje de agente único para que se aliente explícitamente al modelo a gastar su presupuesto de razonamiento disponible en el análisis previo a la respuesta”.
Al ordenar al modelo que identifique explícitamente ambigüedades, enumere interpretaciones candidatas y pruebe alternativas antes de comprometerse con una respuesta final, los desarrolladores pueden recuperar los beneficios de la colaboración dentro de un entorno de agente único.
Los resultados de sus experimentos confirman que un único agente es la arquitectura predeterminada más sólida para tareas de razonamiento de múltiples saltos. Produce respuestas de la mayor precisión y consume menos fichas de razonamiento. Cuando se combina con modelos específicos como el Gemini 2.5 de Google, la variante más larga produce un rendimiento agregado aún mejor.
Los investigadores se basan en un concepto llamado “desigualdad en el procesamiento de datos” para explicar por qué un solo agente supera a un enjambre. Las estructuras de múltiples agentes introducen cuellos de botella inherentes en la comunicación. Cada vez que la información se resume y distribuye entre diferentes agentes, existe el riesgo de pérdida de datos.
En cambio, el razonamiento realizado por un único agente dentro de un contexto continuo evita esta fragmentación. Mantiene el acceso a la representación más rica disponible de la tarea y, por lo tanto, es más eficiente en términos de información con un presupuesto fijo.
Los autores también señalan que las empresas a menudo ignoran los costos secundarios de los sistemas multiagente.
“Lo que las empresas suelen subestimar es que la orquestación no es gratuita”, dijeron. “Cada agente adicional introduce una sobrecarga de comunicación, más texto intermedio, más oportunidades de resúmenes con pérdidas y más lugares para que se acumulen errores”.
Por otro lado, descubrieron que la orquestación de múltiples agentes es superior cuando un entorno de un solo agente se vuelve desordenado. Si una aplicación empresarial necesita lidiar con contextos altamente degradados, como datos ruidosos, entradas largas llenas de distractores o información corrupta, un solo agente tendrá dificultades. En estos escenarios, el filtrado, la descomposición y la verificación estructurados en un sistema de múltiples agentes pueden recuperar información relevante de manera más confiable.
El estudio también advierte sobre errores ocultos en la evaluación que inflan falsamente el desempeño de múltiples agentes. Depender únicamente del recuento de tokens informado por la API distorsiona en gran medida la cantidad de cálculo que realmente está gastando una arquitectura. Los investigadores encontraron estos artefactos contables al probar modelos como Gemini 2.5, lo que demuestra que se trata de un problema activo para las aplicaciones empresariales actuales.
“Para los modelos API, la situación es más complicada porque la contabilidad presupuestaria puede ser opaca”, dijeron los autores. Para evaluar las arquitecturas de manera confiable, aconsejan a los desarrolladores “registrar todo, medir los tokens de razonamiento visibles cuando estén disponibles, usar recuentos de tokens de razonamiento informados por el proveedor cuando estén expuestos y tratar estos números con precaución”.
Qué significa esto para los desarrolladores
Si un sistema de agente único iguala el rendimiento de varios agentes con presupuestos de razonamiento iguales, gana en costo total de propiedad al ofrecer menos llamadas de modelo, menor latencia y una depuración más simple. Tran y Kiela advierten que sin esta base, “algunas empresas pueden estar pagando una gran ‘tarifa de enjambre’ por arquitecturas cuya ventaja aparente en realidad proviene de gastar más computación en lugar de razonar de manera más efectiva”.
Otra forma de considerar el límite de decisión no es cuán compleja es la tarea general, sino dónde se encuentra exactamente el cuello de botella.
“Si se trata principalmente de profundidad de razonamiento, SAS suele ser suficiente. Si se trata de fragmentación o degradación del contexto, MAS se vuelve más defendible”, dijo Tran.
Los equipos de ingeniería deben utilizar un solo agente cuando una tarea se puede realizar dentro de una ventana de contexto coherente. Los sistemas multiagente se vuelven necesarios cuando una aplicación trata contextos altamente degradados.
De cara al futuro, las estructuras multiagente no desaparecerán, pero su papel evolucionará a medida que los modelos de frontera mejoren sus capacidades de razonamiento interno.
“La principal conclusión de nuestro artículo es que el marco multiagente debe ser tratado como una elección de ingeniería dirigida a cuellos de botella específicos, no como una suposición predeterminada de que más agentes significan automáticamente mejor inteligencia”, dijo Tran.
















