En una hazaña impresionante, la startup japonesa Sakana AI Agente de codificación ALE-Agent Recientemente obtuvo el primer lugar en el Concurso Heurístico AtCoder (AHC058), una competencia de codificación compleja que involucra complicados problemas de optimización, y un desafío más difícil y quizás revelador que los puntos de referencia como HumanEval, que prueban principalmente la capacidad de escribir funciones aisladas, y que muchos modelos y agentes de IA ahora pasan regularmente con facilidad (“saturación de puntos de referencia”).
sakana La realización con ALE-Agent sugiere un cambio hacia agentes capaces de optimizarse de forma autónoma para navegar y funcionar bien en sistemas complejos y dinámicos, como pilas de software empresarial, flujos de trabajo y entornos operativos.
En cuatro horas, el agente utilizó escalas de tiempo de inferencia para generar, probar e iterar cientos de soluciones, resolviendo un problema que normalmente requiere una intuición profunda y pruebas y errores que consumen mucho tiempo por parte de expertos humanos. Superó a más de 800 participantes humanos, incluidos programadores competitivos de primer nivel.
Cómo funciona el Agente ALE
El desafío en AHC058 fue un clásico optimización combinatoria problema. A los participantes se les asignó la tarea de gestionar un conjunto de máquinas con relaciones jerárquicas, como máquinas que producen manzanas y otras máquinas que construyen esas máquinas productoras de manzanas. El objetivo era maximizar la producción en un número fijo de vueltas.
En el mundo empresarial, este flujo de trabajo suele seguir un patrón estricto: un experto en el dominio trabaja con un cliente para definir una “función objetiva” (también conocida como Scorer) y luego los ingenieros crean un sistema de software para optimizarla. Estos problemas son notoriamente difíciles porque no pueden resolverse en un solo paso. Requieren exploración, estrategia y la capacidad de cambiar cuando un plan no funciona.
Los expertos humanos suelen abordar esto mediante una estrategia de dos etapas. Primero, utilizan un método “codicioso” (un solucionador liviano que toma la mejor decisión inmediata en cada paso) para generar una solución base decente. Entonces se aplican”recocido simulado“una técnica que toma el plan existente y realiza pequeños ajustes aleatorios para ver si la puntuación mejora. Sin embargo, este enfoque estándar es rígido. Si el plan Greedy inicial va en la dirección equivocada, el recocido simulado rara vez puede corregirlo porque solo busca mejoras locales en un área defectuosa del espacio de la solución.
La innovación de ALE-Agent fue transformar esta herramienta de inicialización estática en un motor de reconstrucción dinámica. En lugar de confiar en el valor inmediato, el agente derivó de forma independiente un concepto que llamó “Poder virtual”. Asignaba valores a componentes que aún no estaban operativos, tratándolos como si ya tuvieran valor. Al evaluar los activos potenciales futuros en lugar de sólo los actuales, el agente capitalizó el “efecto de interés compuesto”, un concepto que identificó explícitamente en su informe. registros internos. Básicamente, podría mirar unos pasos hacia adelante y razonar sobre el futuro, en lugar de mirar la retroalimentación inmediata que estaba recibiendo de su entorno.
Fundamentalmente, el agente necesitaba mantener esta estrategia durante un período de cuatro horas sin perder el foco, un modo de falla común conocido como “derivación del contexto”. En comentarios proporcionados a VentureBeat, el equipo de Sakana AI explicó que el agente genera “conocimientos” textuales al reflexionar sobre cada prueba. Reúne este conocimiento para evitar volver a estrategias previamente fallidas y crea una memoria de trabajo que le permite mirar algunos pasos hacia adelante en lugar de simplemente reaccionar a la retroalimentación inmediata.
Además, el agente integró métodos Greedy directamente en la fase de recocido simulada para evitar quedarse atascado en los óptimos locales, utilizando reconstrucción de alta velocidad para eliminar y reconstruir grandes secciones de la solución en tiempo real.
De la codificación a la optimización empresarial
Esta innovación encaja directamente en los flujos de trabajo empresariales existentes donde ya está disponible una función de puntuación. Actualmente, las empresas tienen escaso talento en ingeniería para escribir algoritmos de optimización. ALE-Agent demuestra un futuro en el que los humanos definen el “puntuador” (es decir, la lógica y los objetivos empresariales) y el agente se encarga de la implementación técnica.
Esto desplaza el cuello de botella operativo de la capacidad de ingeniería a la claridad de las métricas. Si una empresa puede medir un objetivo, el agente puede optimizarlo. Esto tiene aplicaciones directas en logística, como el enrutamiento de vehículos, así como el equilibrio de carga del servidor y la asignación de recursos.
Según el equipo de Sakana AI, esto podría democratizar la optimización. “Esto permite un futuro en el que los clientes no técnicos puedan interactuar directamente con el agente, ajustando las limitaciones del negocio en tiempo real hasta obtener el resultado que desean”, dijeron.
El equipo de Sakana AI le dijo a VentureBeat que ALE-Agent es actualmente propietario y no está disponible para uso público, y que la compañía actualmente se centra en el desarrollo interno y las colaboraciones de prueba de concepto con empresas.
Al mismo tiempo, el equipo ya está pensando en agentes de “autorreescritura”. Estos futuros agentes podrían definir sus propios marcadores, haciéndolos viables para problemas mal definidos en los que los expertos humanos luchan por formular métricas iniciales claras.
El costo de la inteligencia
Ejecutar ALE-Agent no fue barato. La operación de cuatro horas generó aproximadamente $1,300 en costos de computación, involucrando más de 4,000 llamadas de razonamiento a modelos como GPT-5.2 y Géminis 3 Pro. Si bien este precio puede parecer alto para una sola tarea de codificación, el retorno de la inversión para problemas de optimización suele ser asimétrico. En un entorno de gestión de recursos, un costo único de unos pocos miles de dólares puede generar millones de dólares en ahorros anuales por eficiencia.
Sin embargo, las empresas que esperan que los costos simplemente bajen pueden carecer de una visión estratégica. Aunque el costo de los tokens está cayendo, el gasto total puede aumentar a medida que las empresas compiten por mejores respuestas, un concepto conocido como Paradoja de Jevon.
“Si bien los algoritmos más inteligentes impulsan la eficiencia, el principal valor de la IA es su capacidad para explorar amplios espacios de soluciones”, afirmó el equipo de IA de Sakana. “A medida que los costos de inferencia disminuyan, en lugar de limitarse a ahorrar, las empresas probablemente optarán por aprovechar esta accesibilidad para realizar investigaciones aún más profundas y amplias para encontrar soluciones superiores”.
El experimento destaca el inmenso valor que aún queda por desbloquear mediante técnicas de inferencia de escala de tiempo. A medida que los sistemas de IA ganan la capacidad de manejar tareas de razonamiento complejas en contextos más largos, construir mejores estructuras y asignar presupuestos más grandes para el “tiempo de reflexión” permite a los agentes rivalizar con los mejores expertos humanos.
















