Cuando las empresas ajustan los LLM para nuevas tareas, corren el riesgo de romper todo lo que los modelos ya saben. Esto obliga a las empresas a mantener modelos separados para cada habilidad.

Investigadores del MIT, Improbable AI Lab y ETH Zurich han desarrollado una nueva técnica que permite a grandes modelos de lenguaje aprender nuevas habilidades y conocimientos sin olvidar sus capacidades anteriores.

Su técnica, llamada ajuste fino de autodestilación (SDFT), permite que los modelos aprendan directamente de demostraciones y sus propios experimentos, aprovechando las habilidades de aprendizaje inherentes en el contexto de los LLM modernos. Los experimentos muestran que SDFT supera consistentemente el ajuste fino supervisado (SFT) tradicional al tiempo que aborda las limitaciones de los algoritmos de aprendizaje por refuerzo.

Para aplicaciones empresariales, el método permite que un único modelo acumule múltiples habilidades a lo largo del tiempo sin sufrir una regresión en el rendimiento en tareas anteriores. Esto ofrece un camino potencial para crear agentes de IA que puedan adaptarse a entornos empresariales dinámicos, reuniendo nuevos conocimientos y habilidades patentados según sea necesario, sin requerir costosos ciclos de reentrenamiento ni perder sus capacidades de razonamiento general.

El desafío del aprendizaje continuo

Una vez que se capacita e implementa un LLM, permanece estático. No actualiza sus parámetros para adquirir nuevas habilidades, interiorizar nuevos conocimientos o mejorar en base a la experiencia. Para construir una IA verdaderamente adaptable, la industria necesita resolver “aprendizaje continuo”, permitiendo que los sistemas acumulen conocimiento de la misma manera que lo hacen los humanos a lo largo de sus carreras.

La forma más eficaz para que los modelos aprendan es a través del “aprendizaje basado en políticas”. En este enfoque, el modelo aprende de los datos que genera, lo que le permite corregir sus propios errores y procesos de razonamiento. Esto contrasta con el aprendizaje simplemente imitando conjuntos de datos estáticos. Sin aprendizaje de políticas, los modelos son propensos a “olvido catastrófico“, un fenómeno en el que aprender una nueva tarea hace que el modelo pierda su conocimiento previo y su capacidad para realizar tareas anteriores.

Sin embargo, el aprendizaje de políticas normalmente requiere aprendizaje por refuerzo (RL), que se basa en una función de recompensa explícita para calificar los resultados del modelo. Esto funciona bien para problemas con resultados claros, como matemáticas y codificación. Pero en muchos escenarios empresariales del mundo real (por ejemplo, redactar un informe legal o resumir una reunión), definir una función de recompensa matemática es difícil o imposible.

Los métodos de RL también fallan con frecuencia cuando se intenta enseñarle a un modelo información completamente nueva, como un protocolo específico de la empresa o una nueva línea de productos. Como dijo a VentureBeat Idan Shenfeld, estudiante de doctorado en el MIT y coautor del artículo: “No importa cuántas veces el modelo básico lo intente, no logra generar respuestas correctas para un tema sobre el que no tiene conocimiento”, lo que significa que nunca obtiene el visto bueno para aprender.

La alternativa estándar es el ajuste fino supervisado (SFT), donde el modelo se entrena con un conjunto fijo de datos de demostración de expertos. Aunque la SFT proporciona una verdad clara, está inherentemente “fuera de la política”. Debido a que el modelo sólo imita datos en lugar de aprender de sus propios intentos, a menudo no logra generalizar a ejemplos fuera de distribución y sufre gravemente de olvidos catastróficos.

SDFT busca cerrar esta brecha: permitir los beneficios del aprendizaje de políticas utilizando solo demostraciones pregrabadas, sin la necesidad de una función de recompensa.

Cómo funciona SDFT

SDFT resuelve este problema mediante la “destilación”, un proceso en el que un modelo de estudiante aprende a imitar a un maestro. La idea de los investigadores era utilizar las capacidades propias de “aprendizaje en contexto” (ICL) del modelo para crear un circuito de retroalimentación dentro de un único modelo.

El aprendizaje contextual es el fenómeno en el que se le proporciona al LLM una tarea difícil y una o más demostraciones de cómo se resuelven problemas similares. Los LLM más avanzados están diseñados para resolver nuevos problemas con ejemplos de ICL sin actualizaciones de parámetros.

Durante el ciclo de formación, SDFT emplea el modelo en dos funciones.

El maestro: Una versión congelada del modelo impulsa la consulta junto con demostraciones de expertos. Utilizando ICL, el profesor deduce la respuesta correcta y el razonamiento lógico necesario para lograrla.

El estudiante: Esta versión solo ve la consulta, simulando un escenario de implementación real donde no hay ninguna clave de respuesta disponible.

Cuando el estudiante genera una respuesta, el profesor, que tiene acceso a las demostraciones de los expertos, proporciona retroalimentación. Luego, el estudiante actualiza sus parámetros para alinearlos más estrechamente con la distribución del profesor.

Este proceso crea efectivamente un ciclo de aprendizaje de políticas, combinando elementos de SFT y RL. La supervisión no proviene de un conjunto de datos estáticos, sino de la interacción misma y los resultados del modelo. Permite que el modelo corrija sus propias trayectorias de razonamiento sin requerir una señal de recompensa externa. Este proceso funciona incluso para conocimientos nuevos que RL perdería.

SDFT en acción

Para validar el enfoque, los investigadores probaron el SDFT utilizando el peso abierto Modelo qwen 2.5 en tres habilidades complejas a nivel empresarial: preguntas y respuestas científicas, uso de herramientas de software y razonamiento médico.

Los resultados mostraron que SDFT aprendió nuevas tareas de manera más efectiva que los métodos estándar. En el punto de referencia Science Q&A, el modelo SDFT logró una precisión del 70,2%, en comparación con el 66,2% del enfoque SFT estándar.

Más importante para la adopción empresarial es el impacto en el olvido catastrófico. Cuando el modelo SFT estándar aprendió la tarea científica, su capacidad para responder preguntas generales (como lógica o humanidades) colapsó. Por el contrario, el modelo SDFT mejoró la tarea científica, manteniendo estable la puntuación de “Tareas anteriores” en 64,5%. Esta estabilidad sugiere que las empresas podrían especializar modelos para departamentos específicos (por ejemplo, Recursos Humanos o Legal) sin degradar el sentido común básico o las capacidades de razonamiento del modelo.

El equipo también simuló un escenario de inyección de conocimiento, creando un conjunto de datos de “desastres naturales de 2025” ficticios para enseñar al modelo nuevos hechos. Probaron el modelo con preguntas de razonamiento indirecto como “Dadas las inundaciones de 2025, ¿qué países probablemente necesitarían ayuda humanitaria?”

La SFT estándar dio como resultado un modelo que memorizaba hechos pero tenía dificultades para usarlos en escenarios de razonamiento. El modelo SDFT, habiendo internalizado la lógica durante el entrenamiento, obtuvo una puntuación del 98% en las mismas preguntas.

Finalmente, los investigadores llevaron a cabo un experimento de aprendizaje secuencial, entrenando el modelo en ciencia, uso de herramientas y tareas médicas, uno tras otro. Mientras que el rendimiento del modelo estándar fluctuaba, perdiendo habilidades anteriores a medida que aprendía otras nuevas, el modelo SDFT acumuló con éxito las tres habilidades sin regresión.

Esta característica soluciona un problema importante para las empresas que actualmente administran “zoológicos modelo” de adaptadores separados para diferentes tareas.

“Ofrecemos la posibilidad de mantener un único modelo para todas las necesidades de la empresa”, afirmó Shenfeld. Esta consolidación “puede conducir a una reducción sustancial de los costos de inferencia” porque las organizaciones no necesitan alojar múltiples modelos simultáneamente.

Limitaciones y disponibilidad de SDFT

El código para SDFT está disponible en GitHub y listo para integrarse en los flujos de trabajo de capacitación de modelos existentes.

“El proceso SDFT es más similar al proceso RL porque requiere generación de respuestas en línea durante la capacitación”, dijo Shenfeld. Están trabajando con Hugging Face para integrar SDFT en la última Aprendizaje por refuerzo de transformadores (TRL), agregó, señalando que ahora está abierta una solicitud de extracción para los desarrolladores que quieran probar la integración.

Para los equipos que consideran SDFT, las compensaciones prácticas se reducen al tamaño del modelo y la computación. La técnica requiere modelos con aprendizaje contextual lo suficientemente fuerte como para actuar como sus propios maestros: actualmente alrededor de 4 mil millones de parámetros con arquitecturas más nuevas como Qwen 3, aunque Shenfeld espera que mil millones de modelos de parámetros funcionen pronto. Requiere aproximadamente 2,5 veces el cálculo del ajuste fino estándar, pero es más adecuado para organizaciones que necesitan un único modelo para acumular múltiples habilidades a lo largo del tiempo, especialmente en dominios donde definir una función de recompensa para el aprendizaje por refuerzo es difícil o imposible.

Aunque eficaz, el método aporta ventajas computacionales. SDFT es aproximadamente cuatro veces más lento y requiere 2,5 veces más potencia computacional (FLOP) que el ajuste fino estándar porque el modelo debe generar activamente sus propias respuestas (“despliegues”) durante el entrenamiento para compararlo con el profesor. Sin embargo, los investigadores señalan que debido a que el modelo retiene mejor el conocimiento, las organizaciones pueden evitar los costosos procesos de reciclaje de múltiples fases que a menudo se requieren para reparar modelos que sufren de olvidos catastróficos.

La técnica también depende de que el modelo subyacente sea lo suficientemente grande como para beneficiarse del aprendizaje en contexto. El artículo señala que los modelos más pequeños (por ejemplo, 3 mil millones de parámetros) inicialmente tuvieron dificultades porque carecían de la “inteligencia” para actuar como sus propios maestros.

Sin embargo, Shenfeld afirmó que la rápida mejora de los modelos pequeños está cambiando esta dinámica. “Los modelos Qwen 2.5 3B eran demasiado débiles, pero en algunos experimentos que hacemos actualmente, descubrimos que el modelo Qwen 3 4B es lo suficientemente fuerte”, dijo. “Veo un futuro en el que incluso los modelos 1B tendrán capacidades ICL lo suficientemente buenas como para admitir SDFT”.

En última instancia, el objetivo es ir más allá de las instantáneas estáticas hacia sistemas que mejoren con el uso.

“El aprendizaje permanente, junto con la capacidad de extraer señales de aprendizaje de interacciones no estructuradas del usuario… producirá modelos que seguirán mejorando con el tiempo”, dijo Shenfeld.

“Piense en el hecho de que la mayor parte de la informática en todo el mundo ya se centra en la inferencia en lugar del entrenamiento. Tenemos que encontrar formas de aprovechar esa informática para mejorar nuestros modelos”.

Fuente