Los investigadores de Google han desarrollado una técnica que facilita que los modelos de IA aprendan tareas de razonamiento complejas que a menudo provocan que los LLM alucinen o colapsen. En lugar de entrenar a los LLM prediciendo el siguiente token, su técnica, llamada aprendizaje por refuerzo interno (RL interno), guía las activaciones internas del modelo para desarrollar una solución paso a paso de alto nivel al problema de entrada.
En última instancia, esto podría proporcionar un camino escalable para crear agentes autónomos que puedan manejar razonamientos complejos y robótica del mundo real sin la necesidad de una guía manual constante.
Los límites de predecir el próximo token
Aprendizaje por refuerzo juega un papel clave en los LLM posteriores a la capacitación, especialmente para tareas de razonamiento complejas que requieren una planificación a largo plazo. Sin embargo, el problema radica en la arquitectura de estos modelos. Los LLM son autorregresivos, lo que significa que generan secuencias un token a la vez. Cuando estos modelos exploran nuevas estrategias durante el entrenamiento, lo hacen realizando pequeños cambios aleatorios en el siguiente token o acción. Esto expone una limitación más profunda: predecir el siguiente token obliga a los modelos a buscar soluciones en un nivel de abstracción incorrecto, lo que hace que el razonamiento a largo plazo sea ineficiente incluso cuando el modelo “sabe” qué hacer.
Este enfoque token por token funciona bien para el modelado de lenguaje básico, pero falla en tareas de largo plazo donde las recompensas son escasas. Si el modelo se basa únicamente en un muestreo aleatorio a nivel de token, la probabilidad de encontrar la solución correcta en varios pasos es infinitamente pequeña, “del orden de uno en un millón”, según los investigadores.
La cuestión no es sólo que los modelos se confundan; es sólo que se confunden en el nivel equivocado. En comentarios proporcionados a VentureBeat, el coautor del artículo, Yanick Schimpf, señala que en una tarea de 20 pasos, un agente puede perderse en los detalles finos de un solo paso o perder de vista el objetivo general.
“Sostenemos que cuando nos enfrentamos a un problema con alguna estructura abstracta… [goal-oriented exploration] es lo que quieres”, dijo Schimpf. Al resolver el problema primero en el nivel abstracto, el agente se compromete con un camino, asegurando que no “se pierda en uno de los pasos de razonamiento” y no pueda completar el flujo de trabajo más amplio.
Para abordar esto, este campo ha recurrido durante mucho tiempo al aprendizaje por refuerzo jerárquico. HRL intenta resolver problemas complejos descomponiéndolos en una jerarquía de acciones temporalmente abstractas (subrutinas de alto nivel que representan diferentes etapas de la solución) en lugar de gestionar una tarea como una secuencia de tokens.
Sin embargo, descubrir estas subrutinas apropiadas sigue siendo un desafío de larga data. Los métodos actuales de HRL a menudo no logran descubrir políticas adecuadas, y a menudo “convergen en opciones degeneradas” que no representan comportamientos significativos. Incluso los métodos modernos y sofisticados como GRPO (un algoritmo RL popular utilizado para tareas de recompensa escasa) fallan en entornos complejos porque no pueden cerrar de manera efectiva la brecha entre la ejecución de bajo nivel y la planificación de alto nivel.
Dirigir los pensamientos internos de LLM
Para superar estas limitaciones, el equipo de Google propuso RL interna. Los modelos autorregresivos avanzados ya “saben” cómo realizar internamente tareas complejas de varios pasos, incluso si no están capacitados explícitamente para hacerlo.
Debido a que estos comportamientos complejos están ocultos en el flujo residual del modelo (es decir, los valores numéricos que transportan información a través de las capas de la red), los investigadores introdujeron un “controlador interno de red neuronal” o metacontrolador. En lugar de monitorear y cambiar el token de salida, el metacontrolador controla el comportamiento del modelo aplicando cambios a las activaciones internas del modelo en las capas intermedias.
Este impulso dirige el modelo a un estado útil específico. El modelo base genera automáticamente la secuencia de pasos individuales necesarios para lograr este objetivo porque ya ha visto estos patrones durante el entrenamiento previo inicial.
El metacontrolador opera mediante aprendizaje no supervisado y no requiere ejemplos de entrenamiento etiquetados por humanos. En cambio, los investigadores utilizan un marco autosupervisado donde el modelo analiza una secuencia completa de comportamiento y trabaja hacia atrás para inferir la intención oculta de alto nivel que mejor explica las acciones.
Durante la fase interna de RL, se aplican actualizaciones al metacontrolador, lo que hace que el entrenamiento pase de predecir el siguiente token a aprender acciones de alto nivel que pueden conducir a la solución.
Para comprender el valor práctico de esto, considere un agente corporativo encargado de generar código. Hoy en día, existe un equilibrio difícil: se necesita “baja temperatura” (previsibilidad) para lograr la sintaxis correcta, pero “alta temperatura” (creatividad) para resolver el rompecabezas lógico.
“La RL interna puede facilitar esto al permitir que el modelo explore el espacio de acciones abstractas, es decir, estructurar la lógica y las llamadas a métodos, mientras se delega el desempeño de estas acciones a nivel de token a la distribución robusta y de baja temperatura del modelo base”, dijo Schimpf. El agente explora la solución sin romper la sintaxis.
Los investigadores investigaron dos métodos para aplicar este controlador. En el primero, el modelo autorregresivo básico se entrena previamente en un conjunto de datos de comportamiento y luego se congela, mientras que el metacontrolador se entrena para impulsar el flujo residual del modelo congelado. En el segundo, el metacontrolador y el modelo base se optimizan juntos, con los parámetros de ambas redes actualizados simultáneamente.
RL interno en acción
Para evaluar la eficacia de la RL interna, los investigadores realizaron experimentos en entornos jerárquicos diseñados para confundir a los estudiantes tradicionales. Estos incluían un mundo de cuadrícula discreto y una tarea de control continuo donde un robot cuadrúpedo “hormiga” debe coordinar los movimientos de las articulaciones. Ambos entornos utilizaron escasas recompensas con secuencias de acción muy largas.
Aunque las líneas de base como GRPO y CompILE no pudieron aprender las tareas en un millón de episodios debido a la dificultad de asignar créditos en horizontes largos, la RL interna logró altas tasas de éxito con una pequeña cantidad de episodios de capacitación. Al elegir objetivos de alto nivel en lugar de pequeños pasos, el metacontrolador redujo drásticamente el espacio de búsqueda. Esto permitió que el modelo identificara qué decisiones de alto nivel conducían al éxito, haciendo que la asignación de crédito fuera lo suficientemente eficiente como para resolver el problema de la escasa recompensa.
En particular, los investigadores descubrieron que el enfoque “congelado” era superior. Cuando el modelo base y el metacontrolador fueron entrenados conjuntamente desde cero, el sistema no logró desarrollar abstracciones significativas. Sin embargo, aplicado a un modelo congelado, el metacontrolador descubrió con éxito puntos de control clave sin etiquetas humanas, alineando perfectamente su mecanismo de conmutación interno con los momentos de la verdad cuando un agente termina un subobjetivo y comienza el siguiente.
Mientras la industria actual se fija en modelos de razonamiento que producen largas “cadenas de pensamiento” para resolver problemas, la investigación de Google apunta a un futuro diferente, tal vez más eficiente.
“Nuestro estudio se une a un creciente cuerpo de trabajo que sugiere que el ‘razonamiento interno’ no sólo es viable, sino potencialmente más eficiente que los enfoques basados en tokens”, dijo Schimpf. “Además, estos ‘pensamientos’ silenciosos pueden desacoplarse de modalidades de entrada específicas, una propiedad que puede ser particularmente relevante para el futuro de la IA multimodal”.
Si el razonamiento interno puede guiarse sin externalizarse, el futuro de los agentes de IA podría depender menos de estrategias de fomento y más de qué tan bien podamos acceder y guiar lo que los modelos ya representan internamente. Para las empresas que invierten en sistemas autónomos que deben planificar, adaptarse y actuar a largo plazo, este cambio puede ser más importante que cualquier nuevo marco de razonamiento.
















