RAG no siempre es lo suficientemente rápido o inteligente para los flujos de trabajo de IA modernos. A medida que los equipos pasan de chatbots de corta duración a agentes de larga duración, y con muchas herramientas integradas en los sistemas de producción, estas limitaciones se vuelven más difíciles de solucionar.
En respuesta, los equipos están experimentando con arquitecturas de memoria alternativas, a veces llamadas memoria contextual o memoria del agente, que prioriza la persistencia y la estabilidad sobre la recuperación dinámica.
Una de las implementaciones más recientes de este enfoque es la “memoria de observación”, una tecnología de código abierto desarrollada por Mastra, que fue fundada por los ingenieros que anteriormente construyeron y vendieron el Marco Gatsby para Netlify.
A diferencia de los sistemas RAG que recuperan contexto dinámicamente, la memoria observacional utiliza dos agentes en segundo plano (Observador y Reflector) para comprimir el historial de conversaciones en un registro de observación fechado. Las observaciones comprimidas permanecen en contexto, eliminando por completo la recuperación. Para contenido de texto, el sistema logra una compresión de 3x a 6x. Para cargas de trabajo de agentes con muchas herramientas que generan grandes resultados, las tasas de compresión alcanzan entre 5 y 40 veces.
La desventaja es que la memoria observacional prioriza lo que el agente ya ha visto y decidido en lugar de buscar en un corpus externo más amplio, lo que la hace menos adecuada para el descubrimiento de conocimiento abierto o casos de uso de recuperación de alto cumplimiento.
El sistema obtuvo una puntuación del 94,87 % en LongMemEval utilizando GPT-5-mini, manteniendo una ventana de contexto completamente estable y almacenable en caché. En el modelo GPT-4o estándar, la memoria de observación obtuvo una puntuación del 84,23% en comparación con la implementación RAG de Mastra del 80,05%.
“Tiene la gran característica de ser más simple y potente, ya que obtiene mejores puntuaciones en los puntos de referencia”, dijo a VentureBeat Sam Bhagwat, cofundador y director ejecutivo de Mastra.
Cómo funciona: dos agentes comprimen la historia en observaciones
La arquitectura es más sencilla que la de los sistemas de memoria tradicionales, pero ofrece mejores resultados.
La memoria observacional divide la ventana de contexto en dos bloques. El primero contiene observaciones: notas comprimidas y fechadas tomadas de conversaciones anteriores. El segundo contiene el historial de mensajes sin procesar de la sesión actual.
Dos agentes en segundo plano gestionan el proceso de compresión. Cuando los mensajes no observados alcanzan los 30.000 tokens (configurables), el agente Observer los empaqueta en nuevas observaciones y los agrega al primer bloque. Los mensajes originales se descartan. Cuando las observaciones alcanzan los 40.000 tokens (también configurables), el agente Reflector reestructura y condensa el registro de observación, combinando elementos relacionados y eliminando información reemplazada.
“La forma en que se comprimen estos mensajes a lo largo del tiempo es que en realidad simplemente se reciben mensajes y luego un agente dice: ‘Está bien, entonces, ¿cuáles son las cosas clave que hay que recordar de este conjunto de mensajes?'”, dijo Bhagwat. “Lo comprimes y luego obtienes otros 30.000 tokens y los comprimes”.
El formato se basa en texto y no en objetos estructurados. No se requieren bases de datos vectoriales o gráficas.
Las ventanas de contexto estable reducen los costos de los tokens hasta 10 veces
Los ahorros en memoria de observación provienen del almacenamiento en caché inmediato. Anthropic, OpenAI y otros proveedores reducen los costos de los tokens de 4 a 10 veces para las solicitudes almacenadas en caché en comparación con aquellas que no lo están. La mayoría de los sistemas de memoria no pueden aprovechar esto porque cambia el mensaje en cada paso, inyectando contexto recuperado dinámicamente, lo que invalida el caché. Para los equipos de producción, esta inestabilidad se traduce directamente en curvas de costos impredecibles y cargas de trabajo de agentes más difíciles de presupuestar.
La memoria observacional mantiene el contexto estable. El bloque de observación solo se agrega hasta que se ejecuta la reflexión, lo que significa que el aviso del sistema y las observaciones existentes forman un prefijo consistente que se puede almacenar en caché en varios turnos. Los mensajes continúan agregándose al bloque de historial sin procesar hasta que se alcanza el límite de 30 000 tokens. Cada turno anterior a ese es un acierto de caché completo.
Cuando se ejecuta la observación, los mensajes se reemplazan con nuevas observaciones agregadas al bloque de observación existente. El prefijo de vigilancia sigue siendo coherente, por lo que el sistema aún recibe un acierto parcial en la memoria caché. Sólo durante la reflexión (que se ejecuta con poca frecuencia) se invalida todo el caché.
El tamaño promedio de la ventana de contexto para ejecutar el punto de referencia LongMemEval de Mastra fue de aproximadamente 30.000 tokens, mucho más pequeño de lo que requeriría el historial de conversación completo.
¿Por qué esto difiere de la compresión tradicional?
La mayoría de los agentes de codificación utilizan la compresión para gestionar contextos largos. La compresión permite que la ventana de contexto se llene por completo y luego comprime todo el historial en un resumen cuando está a punto de desbordarse. El agente continúa, la ventana se vuelve a llenar y el proceso se repite.
La compresión produce resúmenes de estilo documentación. Capta la esencia de lo que sucedió, pero omite eventos, decisiones y detalles específicos. La compresión ocurre en lotes grandes, lo que hace que cada pasada sea computacionalmente costosa. Esto funciona para la legibilidad humana, pero a menudo elimina las decisiones específicas y las interacciones de herramientas que los agentes necesitan para actuar de manera consistente a lo largo del tiempo.
Observer, por otro lado, se ejecuta con más frecuencia y procesa fragmentos más pequeños. En lugar de resumir la conversación, produce un registro de decisiones basado en eventos: una lista estructurada de observaciones fechadas y priorizadas sobre lo que sucedió específicamente. Cada ciclo de observación maneja menos contexto y lo comprime de manera más eficiente.
El registro nunca se resume en un blob. Incluso durante la reflexión, Reflector reorganiza y condensa las observaciones para encontrar conexiones y descartar datos redundantes. Pero la estructura basada en eventos persiste. El resultado parece un registro de decisiones y acciones, no documentación.
Casos de uso empresarial: conversaciones de agentes de larga duración
Los clientes de Mastra cubren varias categorías. Algunos crean chatbots en la aplicación para plataformas CMS como Sanity o Contentful. Otros construyen sistemas AI SRE que ayudan a los equipos de ingeniería a clasificar las alertas. Los agentes de procesamiento de documentos se encargan del papeleo para las empresas tradicionales que se están moviendo hacia la automatización.
Lo que comparten estos casos de uso es la necesidad de conversaciones prolongadas que mantengan el contexto durante semanas o meses. Un agente integrado en un sistema de gestión de contenidos debe recordar que hace tres semanas el usuario solicitó un formato de informe específico. Un agente de la SRE necesita realizar un seguimiento de qué alertas se investigaron y qué decisiones se tomaron.
“Uno de los grandes objetivos para 2025 y 2026 es crear un agente dentro de su aplicación web”, dijo Bhagwat sobre las empresas B2B SaaS. “Ese agente debe poder recordar que hace tres semanas me preguntaste sobre esto o dijiste que querías un informe sobre este tipo de contenido o vistas objetivo de esta métrica”.
En estos escenarios, la memoria deja de ser una optimización y se convierte en un requisito del producto: los usuarios notan inmediatamente cuando los agentes olvidan decisiones o preferencias anteriores.
La memoria de observación mantiene presentes y accesibles meses de historial de conversaciones. El agente puede responder recordando todo el contexto, sin necesidad de que el usuario vuelva a explicar preferencias o decisiones anteriores.
El sistema se envió como parte de Mastra 1.0 y ya está disponible. El equipo lanzó complementos esta semana para LangChain, el SDK de IA de Vercel y otros marcos, lo que permite a los desarrolladores utilizar la memoria de observación fuera del ecosistema de Mastra.
Qué significa esto para los sistemas de IA de producción
La memoria de observación ofrece un enfoque arquitectónico diferente al de la base de datos vectorial y las canalizaciones RAG que dominan las implementaciones actuales. La arquitectura más simple (basada en texto, sin bases de datos especializadas) facilita la depuración y el mantenimiento. La ventana de contexto estable permite un almacenamiento en caché agresivo que reduce los costos. El desempeño de referencia sugiere que el enfoque puede funcionar a escala.
Para los equipos empresariales que evalúan enfoques de memoria, las preguntas clave son:
¿Cuánto contexto necesitan mantener sus agentes durante las sesiones?
¿Cuál es su tolerancia a la compresión con pérdida frente a la búsqueda de corpus completo?
¿Necesita la recuperación dinámica proporcionada por RAG o funcionaría mejor un contexto estable?
¿Sus agentes utilizan muchas herramientas y generan grandes cantidades de resultados que necesitan compresión?
Las respuestas determinan si la memoria observacional se adapta a su caso de uso. Bhagwat posiciona la memoria como uno de los primitivos clave necesarios para los agentes de alto rendimiento, junto con las herramientas, la orquestación del flujo de trabajo, la observabilidad y las salvaguardias. Para los actores empresariales integrados en los productos, olvidar el contexto entre sesiones es inaceptable. Los usuarios esperan que los agentes recuerden sus preferencias, decisiones pasadas y el trabajo en curso.
“Lo más difícil para los agentes de formación de equipos es la producción, lo que puede llevar tiempo”, dijo Bhagwat. “La memoria es una parte realmente importante de esto, porque es impactante si usas cualquier tipo de herramienta de agente y dices algo y luego simplemente se olvida”.
A medida que los agentes pasan de los experimentos a los sistemas integrados de registro, la forma en que los equipos diseñan la memoria puede ser tan importante como el modelo que elijan.
















