A medida que los flujos de trabajo de IA multiplican el costo y la latencia de largas cadenas de razonamiento, un equipo de la Universidad de Maryland, el Laboratorio Nacional Lawrence Livermore, la Universidad de Columbia y TogetherAI desarrollaron Encontré una manera de obtener ganancias de rendimiento 3 veces mayores directamente en los pesos de un modelo.

A diferencia de la decodificación especulativa, que requiere un modelo de diseño separado, este enfoque no requiere infraestructura adicional: solo un token especial agregado a la arquitectura existente del modelo.

Los límites de la predicción del próximo token

Predecir el siguiente token (generar texto a partir de un token mediante transferencia directa) crea un límite de rendimiento que se vuelve tremendamente costoso cuando los modelos necesitan producir miles de tokens. Este cuello de botella es especialmente problemático en los modelos de razonamiento, que a menudo generan miles de “cadena de pensamiento”antes de producir la respuesta final, lo que genera una experiencia de usuario lenta y costosa.

La predicción de tokens múltiples (MTP) ofrece un paradigma de entrenamiento alternativo que permite que un modelo de lenguaje produzca múltiples tokens simultáneamente en un solo paso hacia adelante. Por ejemplo, el modelo se puede entrenar para predecir un bloque de tokens a la vez, en lugar de solo el siguiente token inmediato.

John Kirchenbauer, candidato a doctorado en ciencias de la computación en la Universidad de Maryland y coautor del artículo, dijo a VentureBeat que a medida que avanzamos hacia los flujos de trabajo de los agentes, el enfoque está cambiando del rendimiento general a la velocidad de un solo usuario. “Hoy en día, dado que las trazas de pensamiento ultralargas son la norma y los bucles de agencias externas multiplican aún más estos costos, la latencia se está convirtiendo en una dimensión tan importante de la eficiencia general del servicio como los tokens sin procesar por segundo por unidad de hardware (tps/GPU)”, dijo Kirchenbauer. Dijo que si bien pronosticar el próximo token en un lote estándar ya es ideal para el rendimiento general, el nuevo enfoque “se esfuerza por[s] saturar la GPU con una sola consulta de un solo usuario para disminuir la latencia para ese único usuario”.

Existen otros métodos, pero tienen desventajas. “Es importante señalar que la decodificación especulativa y los LLM de transmisión como una alternativa centrada en la eficiencia a la predicción del próximo token (NTP) son técnicas de aceleración centradas en la latencia”, dijo Kirchenbauer. Pero la decodificación especulativa requiere implementar y gestionar un modelo de “dibujo” auxiliar, que requiere un cálculo más absoluto para esbozar y verificar. MTP, por otro lado, “aprovecha un tipo similar de compensación, sólo que es más sencillo de servir y científicamente interesante por derecho propio”.

Sin embargo, los paradigmas actuales de MTP tienen limitaciones. El objetivo estándar para entrenar un modelo de lenguaje para MTP implica comparar sus predicciones con el texto real de un conjunto de datos. El problema es que este entrenamiento estándar enseña al modelo a predecir la probabilidad de que un token se encuentre en una posición específica de forma independiente, en lugar de preocuparse por la relación conjunta entre una secuencia de tokens.

Si un modelo intenta predecir varios tokens a la vez utilizando este método estándar, se producirán dos problemas principales. La primera es la incompatibilidad gramatical. Por ejemplo, si un modelo predice dos palabras después del prefijo “El cuidador del zoológico alimentó al”, podría muestrear y producir de forma independiente una frase que no coincide como “carne de panda” o “bambú de león” en lugar de “bambú de panda” y “carne de león”.

La segunda cuestión es la repetición degenerada. Debido a que el texto típico es impredecible, un modelo que intenta predecir un token 100 posiciones en el futuro en relación con un conjunto de datos estándar solo predecirá “the”, ya que es la palabra más común en inglés. Esto hace que el modelo produzca tonterías como “…el el el…” para posiciones futuras lejanas.

Predicción de múltiples tokens mediante autodestilación

Para resolver los problemas de generar múltiples tokens, los investigadores proponen una nueva técnica de formación que utiliza un esquema estudiante-maestro. Un modelo de estudiante, que es el modelo que aprende a predecir múltiples tokens, genera un bloque determinista de múltiples tokens. Un modelo de profesor, que actúa como un potente modelo de lenguaje de predicción del siguiente token predeterminado, evalúa este bloque. El profesor actúa como crítico, calculando qué tan probable y coherente es la secuencia propuesta por el alumno. Si el alumno propone una frase incompatible como “león de bambú”, el profesor le asigna una pérdida alta, enseñándole al alumno a evitar esta construcción.

El paradigma está inspirado en el aprendizaje por refuerzo basado en políticas porque el modelo del estudiante no consiste simplemente en memorizar texto estático. Genera un lanzamiento completo (secuencia de acciones en la jerga de RL) instantáneamente en paralelo en un único pase hacia adelante y recibe una recompensa en función de lo bueno que el profesor cree que es. A diferencia de los métodos estáticos supervisados, donde los pares de entrenamiento se fijan de antemano, la retroalimentación aquí es dinámica y se genera a partir de los resultados del propio estudiante en tiempo real. El profesor fuerte también comprueba la coherencia de las fichas, lo que evita que el modelo del alumno aprenda resultados degenerados, como palabras repetidas.

Para los desarrolladores, la belleza de este enfoque reside en su simplicidad. “Realmente no hay modificaciones en la arquitectura más que agregar un token especial”, dijo Kirchenbauer. Al cooptar una ranura no utilizada en la matriz de incrustación existente de un modelo para actuar como token de máscara, la técnica convierte operaciones secuenciales en paralelas. “Cualquier modelo de lenguaje de predicción de token siguiente estándar se puede adaptar de esta manera… la implementación interna (MoE, atención en ventanas, capas SSM, etc.) permanece intacta y no presenta barreras para la adaptación”.

Para los equipos de ingeniería, esto significa que la adaptación se puede aplicar a modelos que ya están en producción sin necesidad de reconstruir tuberías.

Generar varios tokens al mismo tiempo aún puede perjudicar la precisión de la respuesta en el momento de la inferencia. Para maximizar la velocidad de generación sin sacrificar la calidad de la salida, los autores introducen una estrategia de decodificación adaptativa llamada ConfAdapt.

ConfAdapt evalúa un umbral de confianza, como el 90 %, en cada paso. El modelo genera un bloque de tokens, pero solo contiene tokens que cumplen o superan este umbral de alta confianza. Cuando el siguiente texto es muy predecible o estructural, la confianza del modelo es muy alta. Aceptará y generará una gran cantidad de tokens a la vez, lo que ahorrará un tiempo de cálculo significativo en tokens fáciles. Luego centra sus costosos pases de un solo token en tokens más difíciles que requieren más esfuerzo computacional.

Poniendo a prueba la predicción de múltiples tokens

Para ver cómo funcionaba el paradigma de entrenamiento en la práctica, los investigadores aplicaron su método a modelos populares sintonizados mediante instrucción con peso abierto. Probaron el sólido modelo de uso general Llama-3.1-8B-Magpie y el más pequeño y eficiente Qwen3-4B-Instruct-2507, que a menudo se elige para implementaciones empresariales sensibles a los costos. Ambos modelos se ajustaron a MetaMathQA, un conjunto de datos de problemas matemáticos sintéticos de escuelas primarias que dependen en gran medida de rasgos de razonamiento.

Los experimentos revelaron un punto óptimo entre velocidad y precisión. Utilizando la estrategia ConfAdapt, el modelo Llama-3.1-8B logró una aceleración de 3 veces con una caída de menos del 3 % en la precisión en los puntos de referencia matemáticos. El modelo Qwen3-4B logró la misma aceleración 3x con una caída ligeramente mayor del 7% en la precisión. Las configuraciones más agresivas podrían lograr aceleraciones 5x, aunque conllevarían penalizaciones de precisión más pronunciadas.

Cómo esto se traduce en tareas del mundo real depende de la previsibilidad. “Debido a que el enfoque ConfAdapt adapta naturalmente la aceleración a la entropía inherente del dominio, cuando el modelo ‘sabe’ exactamente lo que viene a continuación, puede generarlo en una sola pasada”, señaló, lo que lleva a una aceleración masiva en tareas predecibles mientras se utilizan más pasos para resultados inciertos.

Las aceleraciones también se transfirieron entre dominios que no se incluyeron en la fase de entrenamiento de predicción de múltiples tokens. Esto incluía tareas dentro del mismo dominio que los datos de entrenamiento, como matemáticas y razonamiento, así como tareas abiertas como escritura creativa y resúmenes.

A pesar de esta transferencia de aprendizaje, las empresas que implementan estos modelos para tareas especializadas no deberían depender completamente de él. “Nuestra recomendación sería ajustar/adaptar el modelo para MTP utilizando muestras del ámbito industrial especial”, dijo Kirchenbauer. “Es probable que se logre el mejor rendimiento si la adaptación de MTP se realiza utilizando indicaciones del dominio de implementación”.

Al servicio de la compatibilidad y el camino a seguir

El equipo de investigación publicó su modelos entrenados en abrazar la cara y pronto se lanzará el código para su estructura MTP. Los equipos de infraestructura que integren estos modelos en vLLM o SGLang deberán tener en cuenta los cambios en la forma en que se maneja el procesamiento por lotes y el almacenamiento en caché de KV, pero se trata de una inversión de ingeniería única, no una carga continua. Sin embargo, Kirchenbauer no ve “barreras claras para la integración” y confirmó que el equipo está “trabajando con algunos expertos en sistemas para identificar el camino más corto hacia la integración”.

El consejo de Kirchenbauer para los equipos que buscan probar modelos lanzados: comience con instrucciones de juguete, como contar o repetir una oración, para ver los beneficios de ConfAdapt en acción, luego adapte el modelo usando muestras de su dominio de implementación específico para obtener mejores resultados. “En general, esperamos que una implementación de nuestro enfoque lista para producción pueda simplificar el ciclo de vida de la creación e implementación de modelos de agentes de baja latencia”, concluyó Kirchenbauer. “Si bien las técnicas de aceleración existentes para los modelos NTP se centran casi exclusivamente en sistemas de inferencia y lógica, nuestro enfoque sólo incorpora parte de la complejidad en el modelo en sí, lo que lo hace en gran medida complementario al trabajo existente”.

Fuente