¿Cuál es el papel de las bases de datos vectoriales en el mundo de la IA de agentes? Esta es una cuestión a la que las organizaciones se han estado enfrentando en los últimos meses. La narrativa tuvo un impulso real. A medida que los grandes modelos de lenguaje escalaban a ventanas de contexto de millones de tokens, circuló un argumento creíble entre los arquitectos empresariales: la búsqueda vectorial especialmente diseñada era una solución provisional, no una infraestructura. La memoria del agente absorbería el problema de recuperación. Las bases de datos vectoriales fueron un artefacto de la era RAG.
La evidencia de producción va en la dirección opuesta.
QdrantLa empresa de investigación de vectores de código abierto con sede en Berlín anunció el jueves una Serie B de 50 millones de dólares, dos años después de una Serie A de 28 millones de dólares. La compañía también está lanzando la versión 1.17 de su plataforma. En conjunto, reflejan un argumento específico: el problema de recuperación no disminuyó cuando llegaron los agentes. Aumentó y se volvió más difícil.
“Los humanos hacen algunas preguntas cada pocos minutos”, dijo a VentureBeat Andre Zayarni, director ejecutivo y cofundador de Qdrant. “Los agentes realizan cientos o incluso miles de consultas por segundo, simplemente recopilando información para poder tomar decisiones”.
Este cambio cambia los requisitos de infraestructura de una manera que las implementaciones de la era RAG nunca fueron diseñadas para cumplir.
Por qué los agentes necesitan una capa de recuperación que la memoria no puede reemplazar
Los agentes operan con información sobre la que nunca han sido capacitados: datos corporativos propietarios, información actual, millones de documentos que cambian continuamente. Las ventanas de contexto administran el estado de la sesión. No proporcionan una búsqueda de alta recuperación de estos datos, no mantienen la calidad de la recuperación a medida que cambia ni sostienen los volúmenes de consultas generados por la toma de decisiones autónoma.
“La mayoría de las estructuras de memoria de IA disponibles comercialmente utilizan algún tipo de almacenamiento vectorial”, dijo Zayarni.
La implicación es sencilla: incluso las herramientas posicionadas como alternativas de memoria dependen de la infraestructura de recuperación subyacente.
Surgen tres modos de falla cuando esta capa de recuperación no está construida específicamente para la carga. A escala de documentos, un resultado perdido no es un problema de latencia: es un problema de calidad de la decisión que se acumula en cada paso de recuperación en un solo turno de agente. Bajo carga de escritura, la relevancia disminuye porque los datos recién ingeridos se ubican en segmentos no optimizados antes de que llegue la indexación, lo que hace que las búsquedas de los datos más recientes sean más lentas y menos precisas, precisamente cuando la información actual es más importante. En toda la infraestructura distribuida, una única réplica lenta aumenta la latencia en todas las llamadas a herramientas paralelas en un turno de agente: un retraso que un usuario humano considera un inconveniente, pero un agente autónomo no puede.
La versión 1.17 de Qdrant aborda cada uno de ellos directamente. Una consulta de retroalimentación de relevancia mejora la recuperación al ajustar la puntuación de similitud en el siguiente paso de recuperación utilizando señales ligeras generadas por el modelo, sin volver a entrenar el modelo integrado. Un recurso de distribución retrasada consulta una segunda réplica cuando la primera supera un umbral de latencia configurable. Una nueva API de telemetría para todo el clúster reemplaza la solución de problemas nodo por nodo con una vista única de todo el clúster.
Por qué Qdrant ya no quiere llamarse base de datos vectorial
Casi todas las bases de datos importantes ahora admiten vectores como tipo de datos, desde hiperescaladores hasta sistemas relacionales tradicionales. Este cambio cambió la cuestión competitiva. El tipo de datos ahora es algo que está en juego. Lo que sigue siendo especializado es la calidad de la recuperación a escala de producción.
Esta distinción es la razón por la que Zayarni ya no quiere que Qdrant se llame base de datos vectorial.
“Estamos construyendo una capa de recuperación de información para la era de la IA”, afirmó. “Las bases de datos sirven para almacenar datos de los usuarios. Si la calidad de los resultados de la búsqueda es importante, se necesita un motor de búsqueda”.
Su consejo para los equipos iniciales: utilice cualquier vector de soporte que ya esté en su pila. Los equipos que pasan a una recuperación específica lo hacen cuando la escala lo dicta. “Vemos empresas que vienen a nosotros todos los días diciendo que comenzaron con Postgres y pensaban que era lo suficientemente bueno, y no lo es”.
La arquitectura de Qdrant, escrita en Rust, ofrece eficiencia de memoria y control de rendimiento de bajo nivel que los lenguajes de nivel superior no ofrecen al mismo costo. La base de código abierto aumenta esta ventaja: los comentarios de la comunidad y la adopción de los desarrolladores son los que permiten a una empresa de la escala de Qdrant competir con proveedores que tienen recursos de ingeniería mucho mayores. “Sin ello, no estaríamos donde estamos ahora”, dijo Zayarni.
Cómo dos equipos de producción encontraron los límites de las bases de datos de uso general
Las empresas que construyen sistemas de producción de inteligencia artificial en Qdrant presentan el mismo argumento en diferentes direcciones: los agentes necesitan una capa de recuperación y la memoria conversacional o contextual no la reemplaza.
GlassDollar ayuda a empresas como Siemens y Mahle a evaluar nuevas empresas. La búsqueda es el producto principal: un usuario describe una necesidad en lenguaje natural y recibe una lista clasificada de un corpus de millones de empresas. La arquitectura realiza una expansión de consultas en cada solicitud: un único mensaje se distribuye en múltiples consultas paralelas, cada una de las cuales recupera candidatos desde un ángulo diferente, antes de que los resultados se combinen y se vuelvan a clasificar. Este es un patrón de recuperación de agentes, no un patrón RAG, y requiere una infraestructura de investigación especialmente diseñada para respaldarlo en volumen.
La empresa migró de Elasticsearch a medida que avanzaba hacia 10 millones de documentos indexados. Después de cambiar a Qdrant, redujo los costos de infraestructura en aproximadamente un 40 %, abandonó un nivel de compensación basado en palabras clave que mantenía para compensar las brechas de relevancia de Elasticsearch y vio un aumento de 3 veces en la participación de los usuarios.
“Medimos el éxito mediante el retiro”, dijo a VentureBeat Kamen Kanev, jefe de producto de GlassDollar. “Si las mejores empresas no aparecen en los resultados, no importa nada más. El usuario pierde la confianza.”
La memoria del agente y las ventanas de contexto extendidas tampoco son suficientes para absorber la carga de trabajo que necesita GlassDollar.
“Ésta es una cuestión de infraestructura, no una tarea conversacional de gestión estatal”, afirmó Kanev. “No es algo que se resuelva ampliando una ventana de contexto”.
Otro usuario de Qdrant es &IOWAque está construyendo infraestructura para los litigios sobre patentes. Su agente de inteligencia artificial, Andy, realiza búsquedas semánticas en cientos de millones de documentos que abarcan décadas y múltiples jurisdicciones. Los abogados de patentes no actuarán basándose en textos legales generados por IA, lo que significa que cada resultado presentado por el agente debe basarse en un documento real.
“Toda nuestra arquitectura está diseñada para minimizar el riesgo de alucinaciones haciendo de la recuperación el núcleo primitivo, no la generación”, dijo a VentureBeat Herbie Turner, fundador y director de tecnología de &AI.
Para &AI, la capa de agente y la capa de recuperación son distintas por diseño.
“Andy, nuestro agente de patentes, está construido sobre Qdrant”, dijo Turner. “El agente es la interfaz. La base de datos vectorial es la verdad”.
Tres señales: es hora de abandonar su configuración actual
El punto de partida práctico: utilice cualquier capacidad vectorial que ya esté en su pila. La pregunta de evaluación no es agregar búsqueda vectorial, sino cuándo su configuración actual deja de ser adecuada. Tres signos ponen de relieve este punto: la calidad de la recuperación está directamente relacionada con los resultados empresariales; los patrones de consulta implican expansión, reordenamiento en varias etapas o llamadas a herramientas paralelas; o el volumen de datos alcanza decenas de millones de documentos.
En este punto, la evaluación pasa a preguntas operativas: cuánta visibilidad proporciona su configuración actual sobre lo que sucede en un clúster distribuido y cuánto margen de rendimiento tiene cuando aumentan los volúmenes de consultas de los agentes.
“En este momento hay mucho ruido sobre qué reemplazará la capa de recuperación”, dijo Kanev. “Pero cualquiera que cree un producto donde la calidad de la recuperación es el producto, donde la falta de un resultado tiene consecuencias reales para el negocio, necesita una infraestructura de búsqueda dedicada”.
















