A estas alturas, muchas empresas han implementado algún tipo de RAG. La promesa es seductora: indexe sus archivos PDF, conecte un LLM y democratice instantáneamente su conocimiento corporativo.

Pero para las industrias que dependen de la ingeniería pesada, la realidad ha sido sombría. Los ingenieros hacen preguntas específicas sobre infraestructura y el robot alucina.

el fracaso no en LLM. El defecto está en el preprocesamiento.

Los canales RAG estándar tratan los documentos como simples cadenas de texto. Utilizan “trituración de longitud fija” (cortan un documento cada 500 caracteres). Esto funciona para la prosa, pero destruye la lógica de los manuales técnicos. Corta las tablas por la mitad, separa los títulos de las imágenes e ignora la jerarquía visual de la página.

IMejorar la confiabilidad del RAG no significa comprar un modelo más grande; se trata de solucionar el problema de los “datos oscuros” mediante la agrupación semántica y la textualización multimodal.

Aquí está el marco arquitectónico para construir un sistema RAG que realmente pueda leer un manual.

La falacia de la fragmentación de tamaño fijo

En un tutorial estándar de Python RAG, se divide el texto por número de caracteres. En un PDF empresarial, esto es desastroso.

Si una tabla de especificaciones de seguridad cubre 1000 tokens y el tamaño de su bloque es 500, acaba de dividir el encabezado “límite de voltaje” del valor “240V”. EL base de datos vectorial guárdelos por separado. Cuando un usuario pregunta “¿Cuál es el límite de voltaje?”, el sistema de recuperación encuentra el encabezado pero no el valor. El LLM, obligado a responder, a menudo adivina.

La solución: fragmentación semántica

El primer paso para corregir el RAG de producción es abandonar el recuento arbitrario de caracteres en favor de la inteligencia de documentos.

Al utilizar herramientas de análisis que tienen en cuenta el diseño (como Azure Document Intelligence), podemos segmentar datos según la estructura del documento, como capítulos, secciones y párrafos, en lugar del recuento de tokens.

  • Cohesión lógica: Una sección que describe una pieza específica de una máquina se mantiene como un único vector, incluso si varía en longitud.

  • Conservación de la mesa: El analizador identifica un límite de tabla y fuerza toda la cuadrícula a formar un solo bloque, preservando las relaciones fila-columna que son vitales para una recuperación precisa.

En nuestros puntos de referencia cualitativos internos, pasar de la fragmentación fija a la semántica mejoró significativamente la precisión de la recuperación de datos tabulares, deteniendo efectivamente la fragmentación de las especificaciones técnicas.

Desbloqueando datos visuales oscuros

El segundo modo de falla del RAG empresarial es la ceguera. Una gran cantidad de propiedad intelectual corporativa existe no en texto, sino en diagramas de flujo, esquemas y diagramas de arquitectura de sistemas. Las plantillas de incrustación estándar (como text-embedding-3-small) no pueden “ver” estas imágenes. Se ignoran durante la indexación.

Si su respuesta está en un diagrama de flujo, su sistema RAG dirá: “No lo sé”.

La solución: textualización multimodal

Para que los diagramas se puedan buscar, implementamos un paso de preprocesamiento multimodal utilizando modelos con capacidad de visión (específicamente GPT-4o) antes de que los datos lleguen al almacén de vectores.

  1. Extracción de OCR: El reconocimiento óptico de caracteres de alta precisión extrae etiquetas de texto de la imagen.

  2. Subtítulos generativos: El modelo de visión analiza la imagen y genera una descripción detallada en lenguaje natural (“Un diagrama de flujo que muestra que el proceso A conduce al proceso B si la temperatura supera los 50 grados”).

  3. Incorporación híbrida: Esta descripción generada se incrusta y almacena como metadatos vinculados a la imagen original.

Ahora, cuando un usuario busca “flujo de proceso de temperatura”, la búsqueda vectorial coincide con el descripciónincluso si la fuente original fuera un archivo PNG.

La capa de confianza: interfaz de usuario basada en evidencia

Para la adopción empresarial, la precisión es sólo la mitad de la batalla. La otra mitad es verificabilidad.

En una interfaz RAG estándar, el chatbot proporciona una respuesta de texto y cita un nombre de archivo. Esto obliga al usuario a descargar el PDF y navegar por la página para verificar el reclamo. Para preguntas de alto riesgo (“¿Es este químico inflamable?”), los usuarios simplemente no confiarán en el robot.

EL la arquitectura debe implementar la citación visual. Debido a que preservamos el vínculo entre el bloque de texto y su imagen principal durante la fase de preprocesamiento, la interfaz de usuario puede mostrar el gráfico o tabla exacta utilizada para generar la respuesta junto con la respuesta de texto.

Este mecanismo de “muestra tu trabajo” permite a los humanos verificar instantáneamente el razonamiento de la IA, cerrando la brecha de confianza que mata a tantas personas. proyectos internos de IA.

Preparado para el futuro: incorporaciones multimodales nativas

Si bien el método de “textualización” (convertir imágenes en descripciones de texto) es la solución práctica hoy en día, la arquitectura está evolucionando rápidamente.

Ya estamos viendo el surgimiento de incorporaciones multimodales nativas (como el Embed 4 de Cohere). Estos modelos pueden asignar texto e imágenes al mismo espacio vectorial sin el paso intermedio de subtítulos. Si bien actualmente utilizamos un proceso de múltiples etapas para lograr el máximo control, el futuro de la infraestructura de datos probablemente implicará la vectorización “de un extremo a otro”, donde el diseño de una página se incrusta directamente.

Además, como LLM de contexto largo se vuelve rentable, la necesidad de fragmentación puede disminuir. Pronto podremos mover manuales completos a la ventana contextual. Sin embargo, hasta que la latencia y el costo de llamar a millones de tokens disminuyan significativamente, el preprocesamiento semántico seguirá siendo la estrategia económicamente más viable para los sistemas en tiempo real.

Conclusión

La diferencia entre una demostración de RAG y un sistema de producción es cómo maneja las realidades confusas de los datos empresariales.

Deja de tratar tus documentos como simples cadenas de texto. Si quieres que tu IA comprenda tu negocio, debes respetar la estructura de tus documentos. Al implementar la fragmentación semántica y desbloquear datos visuales en sus gráficos, transforma su sistema RAG de un “buscador de palabras clave” a un verdadero “asistente de conocimiento”.

Dippu Kumar Singh es arquitecto de inteligencia artificial e ingeniero de datos.

Fuente