Los agentes creados sobre modelos actuales a menudo fallan con cambios simples (una nueva biblioteca, una modificación del flujo de trabajo) y requieren un ingeniero humano para solucionarlos. Este es uno de los desafíos más persistentes en el despliegue de la IA en las empresas: crear agentes que puedan adaptarse a entornos dinámicos sin ayuda constante. Si bien los modelos actuales son poderosos, son en gran medida estáticos.
Para resolver esto, investigadores de la Universidad de California en Santa Bárbara desarrollaron Agentes en evolución del grupo (GEA), un nuevo marco que permite a grupos de agentes de IA evolucionar juntos, compartir experiencias y reutilizar sus innovaciones para mejorar de forma autónoma con el tiempo.
En experimentos sobre tareas complejas de codificación e ingeniería de software, GEA superó sustancialmente los marcos de mejora personal existentes. Quizás lo más notable para los tomadores de decisiones empresariales fue que el sistema desarrolló de forma autónoma agentes que igualaban o superaban el rendimiento de estructuras meticulosamente diseñadas por expertos humanos.
Las limitaciones de la evolución del ‘lobo solitario’
La mayoría existente sistemas de inteligencia artificial de agentes Se basan en arquitecturas fijas diseñadas por ingenieros. Estos sistemas a menudo luchan por ir más allá de los límites de capacidad impuestos por sus diseños iniciales.
Para abordar esto, los investigadores han buscado durante mucho tiempo crear agentes autoevolucionantes que puedan modificar de forma autónoma su propio código y estructura para superar sus límites iniciales. Esta capacidad es esencial para afrontar entornos abiertos donde el agente debe explorar continuamente nuevas soluciones.
Sin embargo, los enfoques actuales de la autoevolución tienen un defecto estructural importante. Como señalan los investigadores en su artículo, la mayoría de los sistemas están inspirados en la evolución biológica y están diseñados en torno a procesos “centrados en la persona”. Estos métodos suelen utilizar un enfoque estructurado en árbol: se selecciona un único agente “padre” para producir descendencia, creando ramas evolutivas distintas que permanecen estrictamente aisladas entre sí.
Este aislamiento crea un efecto de silo. Un agente de una sucursal no puede acceder a los datos, herramientas o flujos de trabajo descubiertos por un agente de una sucursal paralela. Si no se selecciona una cepa específica para la próxima generación, cualquier descubrimiento valioso realizado por ese agente, como una nueva herramienta de depuración o un flujo de trabajo de prueba más eficiente, desaparece con ella.
En el artículo, los investigadores cuestionan la necesidad de atenerse a esta metáfora biológica. “Los agentes de IA no son individuos biológicos”, argumentan. “¿Por qué su evolución debería seguir limitada por paradigmas biológicos?”
La inteligencia colectiva de los Agentes en la Evolución del Grupo
GEA cambia el paradigma al tratar a un grupo de agentes, en lugar de a un individuo, como la unidad fundamental de la evolución.
El proceso comienza seleccionando un grupo de agentes principales de un archivo existente. Para garantizar una combinación saludable de estabilidad e innovación, GEA selecciona a estos agentes basándose en una puntuación combinada de desempeño (competencia para resolver tareas) y novedad (qué tan distintas son sus capacidades de las demás).
A diferencia de los sistemas tradicionales, donde un agente aprende sólo de su controlador directo, GEA crea un conjunto compartido de experiencia colectiva. Este grupo contiene los rastros evolutivos de todos los miembros del grupo principal, incluidas modificaciones de código, soluciones exitosas de tareas e historiales de invocación de herramientas. Cada agente del grupo obtiene acceso a esta historia colectiva, lo que les permite aprender de los avances y errores de sus compañeros.
Un “Módulo de Reflexión”, impulsado por un modelo de lenguaje de gran tamaño, analiza esta historia colectiva para identificar patrones en todo el grupo. Por ejemplo, si un agente descubre una herramienta de depuración de alto rendimiento mientras otro mejora un flujo de trabajo de prueba, el sistema extrae ambos conocimientos. Con base en este análisis, el sistema genera “directivas de evolución” de alto nivel que guían la creación del grupo infantil. Esto asegura que la próxima generación posea las fortalezas combinadas de todos sus padres, en lugar de solo las características de un solo linaje.
Sin embargo, este enfoque de mente colectiva funciona mejor cuando el éxito es objetivo, como en las tareas de codificación. “Para dominios menos deterministas (por ejemplo, la generación creativa), las señales de valoración son más débiles”, dijeron a VentureBeat Zhaotian Weng y Xin Eric Wang, coautores del artículo, en comentarios escritos. “Compartir resultados y experiencias a ciegas puede introducir experiencias de baja calidad que actúan como ruido. Esto sugiere la necesidad de mecanismos de filtrado de experiencias más fuertes” para tareas subjetivas.
GEA en acción
Los investigadores probaron GEA contra la línea de base autoevolutiva de última generación actual, la Máquina de Darwin Gódel (DGM), sobre dos criterios estrictos. Los resultados demostraron un gran salto en la capacidad sin aumentar la cantidad de agentes utilizados.
Este enfoque colaborativo también hace que el sistema sea más sólido contra fallas. En sus experimentos, los investigadores rompieron intencionalmente los agentes inyectando errores manualmente en sus implementaciones. GEA pudo corregir estos errores críticos en un promedio de 1,4 iteraciones, mientras que la línea base requirió 5 iteraciones. El sistema aprovecha eficazmente a los miembros “sanos” del grupo para diagnosticar y corregir a los que están comprometidos.
En SWE-bench Verified, un punto de referencia que consta de problemas reales de GitHub, incluidos errores y solicitudes de funciones, GEA logró una tasa de éxito del 71,0 %, en comparación con el 56,7 % de la base de referencia. Esto se traduce en un aumento significativo en el rendimiento de la ingeniería autónoma, lo que significa que los agentes son mucho más capaces de manejar el mantenimiento del software en el mundo real. De manera similar, en Polyglot, que prueba la generación de código en varios lenguajes de programación, GEA logró un 88,3 % frente al 68,3 % de la línea base, lo que indica una alta adaptabilidad a diferentes pilas de tecnología.
Para los equipos de I+D de las empresas, el hallazgo más importante es que GEA permite que la IA se diseñe a sí misma con tanta eficacia como los ingenieros humanos. En SWE Bank, la tasa de éxito del 71,0% de GEA iguala efectivamente el desempeño de Manos abiertasel marco líder de código abierto diseñado por humanos. En Polyglot, GEA superó significativamente a Aider, un popular asistente de codificación, que logró un 52,0%. Esto sugiere que las organizaciones pueden eventualmente reducir su dependencia de grandes equipos de ingenieros inmediatos para ajustar las estructuras de los agentes, ya que los agentes pueden metaaprender estas optimizaciones de forma autónoma.
Esta eficiencia se extiende a la gestión de costes. “GEA es explícitamente un sistema de dos etapas: (1) evolución del agente, luego (2) inferencia/despliegue”, dijeron los investigadores. “Después de la evolución, se implementa un único agente evolucionado… por lo que el costo de la inferencia empresarial permanece esencialmente sin cambios en comparación con una configuración estándar de un solo agente”.
El éxito de GEA se debe en gran medida a su capacidad para consolidar mejoras. Los investigadores siguieron innovaciones específicas inventadas por agentes durante el proceso evolutivo. En el enfoque básico, a menudo aparecían herramientas valiosas en ramas aisladas, pero no lograban propagarse porque esos linajes específicos terminaron. En GEA, el modelo de experiencia compartida garantizó que estas herramientas fueran adoptadas por los agentes con mejor desempeño. El agente principal de GEA integró rasgos de 17 ancestros únicos (que representan el 28% de la población), mientras que el mejor agente de referencia integró rasgos de solo 9. De hecho, GEA crea un “supertrabajador” que combina las mejores prácticas de todo el grupo.
“Un flujo de trabajo de producción inspirado en GEA permitiría a los agentes probar primero algunas soluciones independientes cuando se produzcan fallos”, explicaron los investigadores sobre esta capacidad de autorreparación. “Un pensador (normalmente impulsado por un modelo de base sólida) puede entonces resumir los resultados… y guiar una actualización más completa del sistema”.
Además, las mejoras descubiertas por GEA no están vinculadas a un modelo subyacente específico. Los agentes evolucionaron utilizando un modelo, como Claude, y mantuvieron sus mejoras de rendimiento incluso cuando el motor subyacente se cambió por otra familia de modelos, como GPT-5.1 o GPT-o3-mini. Esta transferibilidad brinda a las empresas la flexibilidad de cambiar de proveedor de modelos sin perder las optimizaciones arquitectónicas personalizadas que sus agentes han aprendido.
Para industrias con estrictos requisitos de cumplimiento, la idea de un código automodificable puede parecer arriesgada. Para abordar esto, dijeron los autores, “esperamos que las implementaciones empresariales incluyan protecciones no evolutivas, como ejecución en espacio aislado, restricciones de políticas y capas de verificación”.
Aunque los investigadores planean publicar el código oficial pronto, los desarrolladores ahora pueden comenzar a implementar conceptualmente la arquitectura GEA sobre los marcos de agentes existentes. El sistema requiere tres adiciones importantes a una pila de agentes estándar: un “archivo de experiencia” para almacenar rastros evolutivos, un “módulo de reflexión” para analizar patrones de grupo y un “módulo de actualización” que permite al agente modificar su propio código en función de estos conocimientos.
De cara al futuro, el marco podría democratizar el desarrollo de agentes avanzados. “Una dirección prometedora son los canales de evolución híbridos”, dijeron los investigadores, “donde los modelos más pequeños exploran temprano para acumular diversas experiencias, y los modelos más fuertes luego guían la evolución utilizando estas experiencias”.
















