Los canales de RAG estándar se rompen cuando las empresas intentan utilizarlos para implementaciones de agentes LLM multisesión a largo plazo. Esta es una limitación crítica a medida que crece la demanda de asistentes de IA persistentes.

xMemoriaUna nueva técnica desarrollada por investigadores del King’s College de Londres y el Instituto Alan Turing resuelve este problema organizando las conversaciones en una jerarquía de temas semánticos que se pueden buscar.

Los experimentos muestran que xMemory mejora la calidad de la respuesta y el razonamiento de largo alcance en múltiples LLM al tiempo que reduce los costos de inferencia. Según los investigadores, el uso de tokens cae de más de 9.000 a alrededor de 4.700 tokens por consulta en comparación con los sistemas existentes en algunas tareas.

Para aplicaciones empresariales del mundo real, como asistentes de IA personalizados y herramientas de soporte de decisiones multisesión, esto significa que las organizaciones pueden implementar agentes más confiables y conscientes del contexto, capaces de mantener una memoria coherente a largo plazo sin aumentar la sobrecarga computacional.

RAG no fue construido para esto

En muchas aplicaciones empresariales de LLM, una expectativa fundamental es que estos sistemas mantengan la coherencia y la personalización a lo largo de interacciones largas y de múltiples sesiones. Para respaldar este razonamiento a largo plazo, un enfoque común es utilizar RAG estándar: almacenar diálogos y eventos pasados, recuperar un número fijo de coincidencias principales basándose en la incrustación de similitudes y concatenarlas en una ventana contextual para generar respuestas.

Sin embargo, el RAG tradicional está diseñado para grandes bases de datos donde los documentos recuperados son muy diversos. El principal desafío es filtrar información completamente irrelevante. La memoria de un agente de IA, por otro lado, es un flujo continuo y limitado de conversación, lo que significa que los bloques de datos almacenados están altamente correlacionados y a menudo contienen casi duplicados.

Para entender por qué simplemente ampliar la ventana de contexto no funciona, considere cómo el RAG estándar maneja un concepto como el de los cítricos.

Imaginemos que un usuario mantuviera muchas conversaciones diciendo cosas como “me encantan las naranjas”, “me gustan las mandarinas” y, por separado, otras conversaciones sobre lo que se considera un cítrico. El RAG tradicional puede tratarlos a todos como semánticamente cercanos y continuar recuperando fragmentos similares “cítricos”.

“Si la recuperación colapsa en cualquier grupo que sea más denso en el espacio de incrustación, el agente puede obtener muchos pasajes muy similares sobre preferencias, mientras pierde los hechos de categoría necesarios para responder a la consulta real”, dijo a VentureBeat Lin Gui, coautor del artículo.

Una solución común para los equipos de ingeniería es aplicar poda o compactación posterior a la recuperación para filtrar el ruido. Estos métodos suponen que los pasajes recuperados son muy diversos y que los patrones de ruido irrelevantes pueden separarse claramente de los hechos útiles.

Este enfoque no llega a la memoria del agente conversacional porque el diálogo humano está “temporalmente enredado”, escriben los investigadores. La memoria conversacional depende en gran medida de correferencias, elipsis y dependencias estrictas de la línea de tiempo. Debido a esta interconexión, las herramientas de poda tradicionales a menudo eliminan accidentalmente partes importantes de una conversación, dejando a la IA sin el contexto vital que necesita para razonar con precisión.

Por qué la solución que buscan la mayoría de los equipos empeora las cosas

Para superar estas limitaciones, los investigadores proponen un cambio en la forma en que se construye y busca la memoria del agente, lo que describen como “desacoplamiento para agregación”.

En lugar de hacer coincidir las consultas de los usuarios directamente con registros de chat sin procesar y superpuestos, el sistema organiza la conversación en una estructura jerárquica. En primer lugar, desacopla el flujo de la conversación en componentes semánticos distintos e independientes. Estos hechos individuales luego se agregan en una jerarquía estructural de temas de nivel superior.

Cuando la IA necesita recuperar información, busca hacia arriba y hacia abajo en la jerarquía, pasando de los temas a la semántica y, finalmente, a los fragmentos sin procesar. Este enfoque evita la redundancia. Si dos fragmentos de diálogo tienen incrustaciones similares, es poco probable que el sistema los recupere juntos si se les han asignado componentes semánticos diferentes.

Para que esta arquitectura tenga éxito, debe equilibrar dos propiedades estructurales vitales. Los componentes semánticos deben estar suficientemente diferenciados para evitar que la IA recupere datos redundantes. Al mismo tiempo, las agregaciones de nivel superior deben permanecer semánticamente fieles al contexto original para garantizar que el modelo pueda elaborar respuestas precisas.

Una jerarquía de cuatro niveles que colapsa la ventana contextual.

Los investigadores desarrollaron xMemory, un marco que combina la gestión de memoria estructurada con una estrategia de búsqueda adaptativa de arriba hacia abajo.

xMemory organiza continuamente el flujo de conversación sin procesar en una jerarquía estructurada de cuatro niveles. En la base están los mensajes sin procesar, que primero se resumen en bloques contiguos llamados “episodios”. A partir de estos episodios, el sistema destila hechos reutilizables, como la semántica, que separa el conocimiento central a largo plazo de los registros de chat repetitivos. Finalmente, la semántica relacionada se agrupa en temas de alto nivel para que sea fácil de buscar.

xMemory utiliza una función objetivo especial para optimizar constantemente la forma en que agrupa estos elementos. Esto evita que las categorías se vuelvan demasiado infladas, lo que ralentiza la investigación, o demasiado fragmentadas, lo que debilita la capacidad del modelo para agregar evidencia y responder preguntas.

Cuando xMemory recibe un mensaje, realiza una recuperación de arriba a abajo de esta jerarquía. Comienza en los niveles temático y semántico, seleccionando un conjunto diverso y compacto de hechos relevantes. Esto es crucial para las aplicaciones del mundo real, donde las consultas de los usuarios a menudo requieren recopilar descripciones de múltiples temas o encadenar hechos conectados para un razonamiento complejo de múltiples saltos.

Una vez que se obtiene este esqueleto de hechos de alto nivel, el sistema controla la redundancia a través de lo que los investigadores llaman “Uncertainty Gating”. Solo profundiza en busca de evidencia cruda más detallada a nivel de episodio o mensaje si ese detalle específico disminuye de manera mensurable la incertidumbre del modelo.

“La similitud semántica es un signo de generación de candidatos; la incertidumbre es un signo de decisión”, dijo Gui. “La similitud te dice lo que está cerca. La incertidumbre te dice lo que realmente vale la pena pagar en el presupuesto inmediato”. Deja de expandirse cuando detecta que agregar más detalles ya no ayuda a responder la pregunta.

¿Cuáles son las alternativas?

Existente sistemas de memoria de agente Generalmente se dividen en dos categorías estructurales: proyectos planos y proyectos estructurados. Ambos sufren limitaciones fundamentales.

Enfoques planos como MemGPT grabar diálogos sin procesar o rastros mínimamente procesados. Esto capta la conversación, pero acumula una redundancia masiva y aumenta los costos de recuperación a medida que crece la historia.

Sistemas estructurados como AMÉN y MemoryOS intentan solucionar esto organizando los recuerdos en jerarquías o gráficos. Sin embargo, todavía dependen del texto sin procesar o mínimamente procesado como su principal unidad de recuperación, extrayendo a menudo contextos extensos e inflados. Estos sistemas también dependen en gran medida de registros de memoria generados por LLM que tienen restricciones de esquema estrictas. Si la IA se desvía ligeramente en su formato, puede provocar fallos en la memoria.

xMemory aborda estas limitaciones a través de su esquema de construcción de memoria optimizado, recuperación jerárquica y reestructuración dinámica de su memoria a medida que crece.

Cuándo usar xMemory

Para los arquitectos empresariales, es fundamental saber cuándo adoptar esta arquitectura en lugar del RAG estándar. Según Gui, “xMemory es más atractivo cuando el sistema necesita permanecer coherente durante semanas o meses de interacción”.

Los agentes de atención al cliente, por ejemplo, se benefician enormemente de este enfoque porque deben recordar las preferencias estables del usuario, los incidentes pasados ​​y el contexto específico de la cuenta sin generar repetidamente tickets de soporte casi duplicados. El coaching personalizado es otro caso de uso ideal, que requiere que la IA separe las características duraderas del usuario de los detalles episódicos cotidianos.

Por otro lado, si una empresa está construyendo una IA para comunicarse con un repositorio de archivos, como manuales de políticas o documentación técnica, “una pila RAG más simple sigue siendo la mejor opción de ingeniería”, dijo Gui. En estos escenarios estáticos centrados en documentos, el corpus es lo suficientemente diverso como para que la recuperación estándar del vecino más cercano funcione perfectamente sin la sobrecarga operativa de la memoria jerárquica.

¿Vale la pena el impuesto de grabación?

xMemory reduce el cuello de botella de latencia asociado con la generación de respuesta final de LLM. En los sistemas RAG estándar, LLM se ve obligado a leer y procesar una ventana contextual inflada y llena de cuadros de diálogo redundantes. Debido a que la recuperación precisa y de arriba hacia abajo de xMemory crea una ventana de contexto mucho más pequeña y altamente específica, el lector de LLM dedica mucho menos tiempo de computación a analizar el mensaje y generar el resultado final.

En sus experimentos con tareas de contexto prolongado, los modelos abiertos y cerrados equipados con xMemory superaron a otras líneas de base, utilizando considerablemente menos tokens y aumentando la precisión de las tareas.

Sin embargo, esta recuperación eficiente tiene un costo inicial. Para una implementación empresarial, el problema con xMemory es que intercambia una enorme tasa de lectura por una tasa de escritura inicial. Si bien, en última instancia, hace que responder a las consultas de los usuarios sea más rápido y económico, mantener su arquitectura sofisticada requiere un procesamiento en segundo plano sustancial.

A diferencia de los canales RAG estándar, que descargan de forma económica incrustaciones de texto sin formato en una base de datos, xMemory debe ejecutar múltiples llamadas de ayuda de LLM para detectar límites conversacionales, resumir episodios, extraer hechos semánticos a largo plazo y sintetizar temas generales.

Además, el proceso de reestructuración de xMemory añade requisitos computacionales adicionales, ya que la IA debe organizar, vincular y actualizar su propio sistema de archivos interno. Para gestionar esta complejidad operativa en producción, los equipos pueden realizar esta pesada reestructuración de forma asincrónica o en microlotes en lugar de bloquear sincrónicamente la consulta del usuario.

Para los desarrolladores deseosos de crear prototipos, el código xMemory está disponible públicamente. disponible en GitHub bajo una licencia del MIT, lo que lo hace viable para usos comerciales. Si está tratando de implementar esto en herramientas de orquestación existentes como LangChain, Gui aconseja centrarse primero en la innovación central: “Lo más importante a construir primero no es un mensaje de recuperación más sofisticado. Es la capa de descomposición de la memoria. Si solo hace bien una cosa primero, conviértala en la lógica de indexación y descomposición”.

La recuperación no es el último obstáculo

Si bien xMemory ofrece una solución poderosa para las limitaciones actuales de las ventanas contextuales, allana el camino para la próxima generación de desafíos en los flujos de trabajo de los agentes. A medida que los agentes de IA colaboran en horizontes más largos, simplemente encontrar la información correcta no será suficiente.

“La recuperación es un cuello de botella, pero una vez que mejora, estos sistemas pasan rápidamente a la gestión del ciclo de vida y la gobernanza de la memoria como los próximos cuellos de botella”, dijo Gui. Analizar cómo deberían deteriorarse los datos, lidiar con la privacidad del usuario y mantener la memoria compartida entre múltiples agentes es exactamente “donde espero que suceda gran parte de la próxima ola de trabajo”, dijo.

Fuente