Al crear aplicaciones LLM, las empresas a menudo necesitan crear indicaciones del sistema muy largas para ajustar el comportamiento del modelo para sus aplicaciones. Estas indicaciones contienen conocimientos de la empresa, preferencias e instrucciones específicas de la aplicación. A escala empresarial, estos contextos pueden impulsar la latencia de inferencia más allá de los límites aceptables y aumentar significativamente los costos por consulta.

Destilación del contexto bajo la política (OPCD), un nuevo marco de capacitación propuesto por investigadores de Microsoft, ayuda a incorporar el conocimiento y las preferencias de las aplicaciones directamente en un modelo. OPCD utiliza las propias respuestas del modelo durante el entrenamiento, lo que evita algunos de los inconvenientes de otras técnicas de entrenamiento. Esto mejora las capacidades de las plantillas para aplicaciones personalizadas y al mismo tiempo conserva sus capacidades generales.

Por qué las indicaciones prolongadas del sistema se convierten en un riesgo

Aprendizaje contextual permite a los desarrolladores actualizar el comportamiento de un modelo en el momento de la inferencia sin modificar sus parámetros subyacentes. La actualización de parámetros suele ser un proceso lento y costoso. Sin embargo, el conocimiento en contexto es transitorio. Este conocimiento no conduce a diferentes conversaciones con el modelo, lo que significa que siempre tendrás que alimentar al modelo exactamente con el mismo enorme conjunto de instrucciones o documentos. Para una aplicación empresarial, esto podría significar pegar repetidamente políticas de la empresa, tickets de clientes o manuales técnicos densos en el mensaje. Esto eventualmente ralentiza el modelo, aumenta los costos y puede confundir al sistema.

“Las empresas suelen utilizar mensajes largos del sistema para imponer restricciones de seguridad (por ejemplo, detección de discursos de odio) o para proporcionar conocimientos específicos de un dominio (por ejemplo, conocimientos médicos)”, dijo Tianzhu Ye, coautor del artículo e investigador de Microsoft Research Asia, en comentarios proporcionados a VentureBeat. “Sin embargo, las indicaciones prolongadas aumentan significativamente la sobrecarga computacional y la latencia en el momento de la inferencia”.

La idea principal detrás de la destilación del contexto es entrenar un modelo para internalizar la información que ingresa repetidamente en el contexto. Como otros técnicas de destilaciónSigue un paradigma profesor-alumno. El profesor es un modelo de IA que recibe solicitudes masivas y detalladas. Al contar con todas las instrucciones y documentos de referencia, genera respuestas altamente personalizadas. El estudiante es un modelo en formación que sólo ve el tema principal y no tiene acceso al contexto completo. Tu objetivo es simplemente observar las respuestas del profesor y aprender a imitar su comportamiento.

A través de este proceso de capacitación, el modelo del estudiante comprime efectivamente las instrucciones complejas del mensaje del maestro directamente en sus parámetros. Para una empresa, el valor principal ocurre en el momento de la inferencia. Debido a que el modelo de estudiante tiene un contexto internalizado, puede implementarlo en su aplicación sin tener que volver a pegar instrucciones extensas. Esto hace que el modelo sea significativamente más rápido y con mucha menos sobrecarga computacional.

Sin embargo, la destilación del contexto clásico se basa en un método de entrenamiento defectuoso llamado “entrenamiento fuera de políticas”, donde el modelo se entrena en conjuntos de datos fijos que se recopilaron antes del proceso de entrenamiento. Esto es problemático en varios sentidos. Durante la capacitación, el estudiante está expuesto solo a datos verdaderos y respuestas generadas por el maestro, creando lo que Ye llama “sesgo de exposición”. En producción, el modelo debe crear sus propias secuencias de tokens para llegar a estas respuestas. Debido a que nunca ha practicado la toma de sus propias decisiones o la recuperación de sus propios errores durante el entrenamiento, puede descarrilarse fácilmente cuando opera de forma independiente. Es como mostrarle a un estudiante videos de un conductor profesional y esperar que aprenda a conducir sin prueba ni error.

Otro problema es el “avance Divergencia Kullback-Leibler (KL)“Se utiliza una medida de minimización para entrenar el modelo. En este método, el modelo se clasifica según la similitud de sus respuestas con las del profesor, lo que fomenta un comportamiento de “cobertura de modo””, dice Ye. El modelo del estudiante suele ser más pequeño o carece del rico contexto que tenía el profesor, lo que significa que simplemente no tiene la capacidad de replicar perfectamente el complejo razonamiento del profesor. Debido a que el estudiante se ve obligado a tratar de cubrir todas estas posibilidades de todos modos, sus supuestos subyacentes se vuelven demasiado amplios y desenfocados.

En aplicaciones del mundo real, esto puede provocar alucinaciones, en las que la IA se confunde e inventa cosas con confianza porque intenta imitar un conocimiento profundo que en realidad no tiene. Esto también significa que el modelo no puede generalizarse bien a nuevas tareas.

Cómo la OPCD resuelve el problema profesor-alumno

Para solucionar los problemas críticos de la antigua dinámica profesor-alumno, los investigadores de Microsoft introdujeron la destilación del contexto en políticas (OPCD). El cambio más importante en la OPCD es que el modelo estudiantil aprende de sus propias trayectorias generacionales, a diferencia de un conjunto de datos estáticos (por eso se le llama “por política”). En lugar de estudiar pasivamente un conjunto de datos de los resultados perfectos del profesor, al estudiante se le asigna una tarea sin ver el enorme mensaje instructivo y tiene que generar una respuesta completamente por su cuenta.

A medida que el estudiante genera su respuesta, el maestro actúa como un instructor en vivo. El profesor tiene acceso al mensaje completo y personalizado y evalúa el resultado del alumno. En cada paso de la generación de estudiantes, el sistema compara la distribución de fichas del estudiante con lo que haría el maestro consciente del contexto.

OPCD utiliza la “divergencia KL inversa” para evaluar al estudiante. “Al minimizar la divergencia inversa de KL, promueve el comportamiento de ‘búsqueda de modo’. Se centra en regiones de alta probabilidad de la distribución de alumnos”, dijo Ye. “Suprime las fichas que el estudiante considera improbables, incluso si la creencia del profesor les asigna una alta probabilidad. Esta alineación ayuda al estudiante a corregir sus propios errores y evitar las distribuciones amplias y alucinatorias de la destilación estándar”.

Debido a que el modelo de estudiante practica activamente la toma de decisiones y aprende a corregir sus propios errores durante el entrenamiento, se comporta de manera más confiable cuando se implementa en una aplicación en vivo. Incorpora con éxito reglas comerciales complejas, restricciones de seguridad o conocimientos especializados directamente en su memoria permanente.

Lo que ofrece la OPCD: los resultados comparativos

Los investigadores probaron OPCD en dos áreas principales: destilación de conocimientos experimentales y destilación de sistemas inmediatos. Para destilar el conocimiento experiencial, los investigadores querían ver si un LLM podía aprender de sus propios éxitos pasados ​​y adoptar esas lecciones de forma permanente. Probaron esto en modelos de varios tamaños utilizando problemas de razonamiento matemático.

Primero, el modelo resolvió problemas y se le pidió que escribiera reglas generales que aprendió de sus éxitos. Luego, utilizando OPCD, insertaron estas lecciones escritas directamente en los parámetros del modelo. Los resultados mostraron que los modelos mejoraron dramáticamente sin necesidad de incorporar más experiencia aprendida en sus indicaciones. En problemas matemáticos complejos, un modelo de 8 mil millones de parámetros mejoró desde una base de referencia del 75,0% al 80,9%. Por ejemplo, en el juego de navegación Frozen Lake, un pequeño modelo de 1.700 millones de parámetros tuvo inicialmente una tasa de éxito del 6,3%. Después de que OPCD incorporó la experiencia aprendida, su precisión saltó al 38,3%.

La segunda serie de experimentos se llevó a cabo mediante largas indicaciones del sistema. Las empresas suelen utilizar advertencias masivas del sistema para hacer cumplir estrictas pautas de comportamiento, como mantener un tono profesional, garantizar la precisión médica o filtrar el lenguaje tóxico. Los investigadores probaron si OPCD podría incorporar permanentemente estas densas reglas de comportamiento en los modelos para que no fuera necesario enviarlas con cada consulta de los usuarios. Sus experiencias muestran que la OPCD internalizó con éxito estas reglas complejas y mejoró enormemente el rendimiento. Al probar un modelo Llama de 3 mil millones de parámetros en cuanto a la clasificación de seguridad y toxicidad, el modelo base obtuvo una puntuación del 30,7%. Después de utilizar OPCD para internalizar la alerta de seguridad, su precisión aumentó al 83,1%. Cuando se trata de cuestiones médicas, el mismo modelo mejoró del 59,4% al 76,3%.

Uno de los principales desafíos del ajuste de modelos es olvido catastróficodonde el modelo está muy centrado en la tarea de ajuste y peor en tareas generales. Los investigadores rastrearon el desempeño fuera de distribución para probar esta visión de túnel. Cuando plasmaron estrictas reglas de seguridad en un modelo, inmediatamente probaron su capacidad para responder preguntas médicas no relacionadas. OPCD mantuvo con éxito el conocimiento médico general del modelo, superando a los métodos más antiguos sin políticas en aproximadamente 4 puntos porcentuales. Se especializó sin perder su inteligencia más amplia.

Dónde encaja la OPCD y dónde no

Aunque OPCD es una herramienta poderosa para internalizar conocimiento estático y reglas complejas, no reemplaza todos los métodos de contexto externo. “RAG es mejor cuando la información necesaria es muy dinámica o involucra una enorme base de datos externa que se actualiza con frecuencia y que no se puede comprimir en pesos de modelo”, dijo Ye.

Para los equipos empresariales que evalúan sus proyectos, la adopción de OPCD no requiere revisar los sistemas existentes ni invertir en hardware especializado. “La OPCD se puede integrar en los flujos de trabajo existentes con muy poca fricción”, afirmó Ye. “Cualquier equipo que ya ejecute RLVR estándar [Reinforcement Learning from Verifiable Rewards] Los oleoductos pueden adoptar OPCD sin grandes cambios arquitectónicos”.

En la práctica, el modelo de estudiante actúa como modelo de política que realiza las implementaciones, mientras que el modelo de maestro congelado sirve como referencia, proporcionando logits. Los requisitos de hardware son muy asequibles. Según Ye, los equipos empresariales pueden replicar los experimentos de los investigadores utilizando alrededor de ocho GPU A100.

Los requisitos de datos son igualmente ligeros. Para la destilación del conocimiento experimental, los desarrolladores solo necesitan alrededor de 30 ejemplos iniciales para generar rastros de solución. Debido a que la técnica se aplica a entornos previamente no optimizados, incluso una pequeña cantidad de datos produce la mayor parte de la mejora del rendimiento. Para la destilación de indicaciones del sistema, las indicaciones optimizadas existentes y los conjuntos de datos de tareas estándar son suficientes.

Los investigadores construyeron su propia implementación en perdidouna base de código RLVR de código abierto, lo que demuestra que la técnica encaja perfectamente en los marcos de aprendizaje por refuerzo convencionales. Planean lanzar su implementación como código abierto después de revisiones internas.

El modelo de superación personal: ¿qué sigue?

De cara al futuro, la OPCD allana el camino para modelos verdaderamente automejorables que se adaptan continuamente a entornos empresariales personalizados. Una vez implementado, un modelo puede extraer lecciones de interacciones del mundo real y utilizar OPCD para internalizar progresivamente estas características sin requerir supervisión manual o anotación de datos por parte de los capacitadores del modelo.

“Esto representa un cambio de paradigma fundamental en la mejora del modelo: las mejoras importantes del modelo pasarían del tiempo de entrenamiento al tiempo de prueba”, dijo Ye. “Utilizar el modelo y permitirle acumular experiencia se convertiría en el principal motor de su avance”.

Fuente