Entrenar modelos estándar de IA contra un conjunto diverso de oponentes –en lugar de construir complejas reglas de coordinación codificadas– es suficiente para producir sistemas cooperativos de múltiples agentes que se adaptan entre sí dinámicamente. Ésa es la conclusión del equipo de Paradigmas de Inteligencia de Google, que sostiene que el enfoque ofrece una modelo escalable y computacionalmente eficiente para implementaciones comerciales de múltiples agentes sin necesidad de una estructura especializada.

La técnica funciona entrenando a un agente LLM a través del aprendizaje por refuerzo descentralizado contra un grupo mixto de oponentes: algunos aprenden activamente, otros están estáticos y se basan en reglas. En lugar de reglas codificadas, el agente utiliza el aprendizaje contextual para leer cada interacción y adaptar su comportamiento en tiempo real.

Por qué los sistemas multiagente siguen luchando entre sí

El panorama de la IA está pasando rápidamente de sistemas aislados a una flota de agentes que deben negociar, colaborar y operar simultáneamente en espacios compartidos. En los sistemas multiagente, el éxito de una tarea depende de las interacciones y comportamientos de múltiples entidades, a diferencia de un solo agente.

La fricción central en estos sistemas de múltiples agentes es que sus interacciones a menudo involucran objetivos en competencia. Debido a que estos agentes autónomos están diseñados para maximizar sus propias métricas específicas, es increíblemente difícil garantizar que no se dañen activamente entre sí en estos escenarios de motivos mixtos.

El aprendizaje por refuerzo de múltiples agentes (MARL) intenta resolver este problema entrenando a múltiples agentes de IA que operan, interactúan y aprenden en el mismo entorno compartido al mismo tiempo. Sin embargo, en las arquitecturas empresariales del mundo real, un único sistema centralizado rara vez tiene visibilidad o controla todas las partes móviles. Los desarrolladores deben confiar en MARL descentralizado, donde los agentes individuales deben descubrir cómo interactuar con otros mientras solo tienen acceso a sus propios datos y observaciones locales limitados.

Uno de los principales problemas del MARL descentralizado es que los agentes a menudo se quedan atrapados en estados subóptimos mientras intentan maximizar sus propias recompensas específicas. Los investigadores se refieren a esto como “deserción mutua”, basándose en la El dilema del prisionero Rompecabezas utilizado en la teoría de juegos. Por ejemplo, pensemos en dos algoritmos automatizados de fijación de precios atrapados en una carrera destructiva hacia el fondo. A medida que cada agente optimiza estrictamente para obtener su propia recompensa egoísta, llega a un punto muerto en el que la empresa en general pierde.

Otro problema es que las estructuras de entrenamiento tradicionales están diseñadas para entornos estacionarios, lo que significa que las reglas del juego y el comportamiento del entorno son relativamente fijos. En un sistema de múltiples agentes, desde la perspectiva de un solo agente, el entorno es fundamentalmente impredecible y cambia constantemente porque otros agentes están aprendiendo y adaptando simultáneamente sus propias políticas.

Aunque los desarrolladores empresariales actualmente dependen de marcos que utilizan máquinas de estado rígidas, estos métodos a menudo enfrentan un obstáculo de escalabilidad en implementaciones complejas.

“La principal limitación de la orquestación codificada es la falta de flexibilidad”, dijo a VentureBeat Alexander Meulemans, coautor del artículo e investigador científico senior del equipo de Paradigmas de Inteligencia de Google. “Si bien las máquinas de estado duro funcionan adecuadamente en dominios limitados, es posible que no logren escalar a medida que aumentan el alcance y la complejidad de las implementaciones de agentes. Nuestro enfoque contextual complementa estos marcos existentes al promover comportamientos sociales adaptativos que están profundamente arraigados durante la fase posterior al entrenamiento”.

Qué significa esto para los desarrolladores que utilizan LangGraph, CrewAI o AutoGen

Los marcos como LangGraph requieren que los desarrolladores definan explícitamente agentes, transiciones de estado y lógica de enrutamiento como un gráfico. LangChain describe este enfoque como equivalente a una máquina de estadosdonde los nodos de agentes y sus conexiones representan estados y matrices de transición. El enfoque de Google invierte este modelo: en lugar de codificar cómo deben coordinarse los agentes, produce un comportamiento cooperativo a través del entrenamiento, permitiendo a los agentes inferir reglas de coordinación a partir del contexto.

Los investigadores demuestran que los desarrolladores pueden lograr sistemas avanzados y cooperativos de múltiples agentes utilizando exactamente las mismas técnicas estándar de modelado de secuencias y aprendizaje por refuerzo que ya impulsan los modelos básicos actuales.

El equipo validó el concepto utilizando un nuevo método llamado Mejora de Políticas Predictivas (PPI), aunque Meulemans señala que el principio subyacente es independiente del modelo.

“En lugar de formar a un pequeño grupo de agentes con funciones fijas, los equipos deberían implementar una rutina de formación de ‘grupos mixtos'”, afirmó Meulemans. “Los desarrolladores pueden reproducir esta dinámica utilizando algoritmos de aprendizaje por refuerzo estándar y disponibles en el mercado (como GRPO)”.

Al exponer a los agentes a la interacción con diversos compañeros (es decir, diferentes solicitudes del sistema, parámetros ajustados o políticas subyacentes), los equipos crean un entorno de aprendizaje sólido. Esto produce estrategias que son resilientes al interactuar con nuevos socios y garantiza que el aprendizaje multiagente conduzca a comportamientos cooperativos estables y a largo plazo.

Cómo los investigadores demostraron que funciona

Para crear agentes que puedan deducir con éxito la estrategia de un compañero de juego, los investigadores crearon una configuración de entrenamiento descentralizada donde la IA se enfrenta a un grupo mixto y muy diverso de oponentes, compuesto por modelos de aprendizaje activo y programas estáticos basados ​​en reglas. Esta diversidad forzada requiere que el agente descubra dinámicamente con quién está interactuando y adapte su comportamiento instantáneamente, basándose enteramente en el contexto de la interacción.

Para los desarrolladores empresariales, la frase “aprendizaje en contexto” a menudo genera preocupaciones sobre la sobrecarga de la ventana contextual, los costos de API y la latencia, especialmente cuando las ventanas ya están llenas de datos de recuperación de generación aumentada (RAG) y mensajes del sistema. Sin embargo, Meulemans aclara que esta técnica se centra en la eficiencia más que en el recuento de tokens. “Nuestro método se centra en optimizar la forma en que los agentes utilizan el contexto disponible durante el post-entrenamiento, en lugar de requerir estrictamente ventanas de contexto más grandes”, dijo. Al capacitar a los agentes para que analicen su historial de interacción para inferir estrategias, utilizan el contexto asignado de manera más adaptable, sin requerir ventanas de contexto más largas que las aplicaciones existentes.

Utilizando el dilema del prisionero iterado (IPR) como punto de referencia, los investigadores lograron una cooperación sólida y estable sin ninguna de las muletas tradicionales. No existen separaciones artificiales entre metaaprendices y estudiantes internos, y no hay necesidad de codificar suposiciones sobre cómo funciona el algoritmo del oponente. Debido a que el agente se adapta en tiempo real y al mismo tiempo actualiza las ponderaciones del modelo base a lo largo del tiempo en muchas interacciones, cumple de manera efectiva ambos roles simultáneamente. De hecho, los agentes se desempeñaron mejor cuando no recibieron información sobre sus adversarios y se vieron obligados a adaptar su comportamiento mediante prueba y error.

El papel del desarrollador cambia de escritor de reglas a arquitecto

Los investigadores dicen que su trabajo cierra la brecha entre el aprendizaje por refuerzo de múltiples agentes y los paradigmas modernos de entrenamiento de modelos centrales. “Dado que los modelos básicos exhiben naturalmente un aprendizaje en contexto y están entrenados en diversas tareas y comportamientos, nuestros hallazgos sugieren un camino escalable y computacionalmente eficiente para el surgimiento de comportamientos sociales cooperativos utilizando técnicas estándar de aprendizaje descentralizado”, escriben.

A medida que confiar en la adaptación del comportamiento en contexto se convierta en el estándar en lugar de reglas de codificación rígidas, el elemento humano de la ingeniería de IA cambiará fundamentalmente. “La función del desarrollador de aplicaciones de IA puede evolucionar desde diseñar y gestionar reglas de interacción individuales hasta diseñar y proporcionar supervisión arquitectónica de alto nivel para entornos de formación”, dijo Meulemans. Esta transición lleva a los desarrolladores de escribir reglas estrictas a asumir un rol estratégico, definiendo los parámetros amplios que garantizan que los agentes aprendan a ser útiles, seguros y colaborativos en cualquier situación.

Fuente