Hoy en día no faltan puntos de referencia de IA en el mercado, con opciones populares como El último examen de la humanidad (HLE), ARC-AGI-2 y GDPval, entre muchos otros.

Los agentes de IA se destacan en la resolución de problemas matemáticos abstractos y en la aprobación de exámenes de nivel doctoral en los que se basan la mayoría de los puntos de referencia, pero Databricks tiene una pregunta para la empresa: ¿pueden realmente manejar el pesado trabajo documental que la mayoría de las empresas necesitan que hagan?

La respuesta, según una nueva investigación de la empresa de plataformas de datos e inteligencia artificial, es preocupante. Incluso los agentes de IA con mejor rendimiento logran menos del 45 % de precisión en tareas que reflejan cargas de trabajo empresariales reales, lo que expone una brecha crítica entre los puntos de referencia académicos y la realidad empresarial.

“Si centramos nuestros esfuerzos de investigación en mejorar [existing benchmarks]por lo que probablemente no estemos resolviendo los problemas correctos para hacer de Databricks una mejor plataforma”, explicó a VentureBeat Erich Elsen, científico investigador principal de Databricks. ¿Cómo podemos crear un punto de referencia que si mejoramos en eso, en realidad estemos mejorando en la resolución de los problemas que tienen nuestros clientes? “

El resultado es OfficeQA, un punto de referencia diseñado para probar agentes de IA basándose en un razonamiento razonado: respondiendo preguntas basadas en complejos conjuntos de datos propietarios que contienen documentos no estructurados y datos tabulares. A diferencia de los puntos de referencia existentes que se centran en capacidades abstractas, OfficeQA representa las tareas económicamente valiosas que las empresas realmente realizan.

Por qué los puntos de referencia académicos no alcanzan el hito empresarial

Según Elsen, existen numerosas deficiencias en los puntos de referencia populares de IA desde una perspectiva empresarial.

El HLE presenta preguntas que requieren experiencia a nivel de doctorado en una variedad de áreas. ARC-AGI evalúa el razonamiento abstracto mediante la manipulación visual de cuadrículas de colores. Ambos traspasan los límites de las capacidades de la IA, pero no reflejan el trabajo diario de la empresa. Incluso GDPval, que fue creado específicamente para evaluar tareas económicamente útiles, falla.

“Tenemos una formación bastante sólida en ciencias o ingeniería y, a veces, creamos evaluaciones que reflejan eso”, dijo Elsen. “Por lo tanto, son extremadamente matemáticos, lo cual es una tarea excelente y útil, pero avanzar las fronteras de las matemáticas humanas no es lo que los clientes intentan hacer con Databricks”.

Si bien la IA se usa comúnmente para soporte al cliente y aplicaciones de codificación, la base de clientes de Databricks tiene un conjunto más amplio de requisitos. Elsen señaló que responder preguntas sobre documentos o corpus de documentos es una tarea empresarial común. Esto requiere analizar tablas complejas con encabezados anidados, recuperar información de docenas o cientos de documentos y realizar cálculos en los que un error de un solo dígito puede provocar que las organizaciones tomen decisiones comerciales incorrectas.

Construir un punto de referencia que refleje la complejidad de los documentos comerciales

Para crear una prueba significativa de las capacidades de razonamiento razonado, Databricks necesitaba un conjunto de datos que se aproximara a la confusa realidad de los corpus de documentos corporativos propietarios y al mismo tiempo estuviera disponible gratuitamente para su búsqueda. El equipo llegó a los Boletines del Tesoro de Estados Unidos, publicados mensualmente durante cinco décadas a partir de 1939 y trimestralmente a partir de entonces.

Los Boletines del Tesoro marcan todas las casillas de la complejidad de los documentos comerciales. Cada boletín tiene entre 100 y 200 páginas y consta de prosa, tablas complejas, gráficos y figuras que describen las operaciones del Tesoro: de dónde vino el dinero federal, adónde fue y cómo financió las operaciones del gobierno. El corpus abarca aproximadamente 89.000 páginas a lo largo de ocho décadas. Hasta 1996, los boletines eran escaneos de documentos físicos; más tarde, fueron archivos PDF producidos digitalmente. USAFacts, una organización cuya misión es “hacer que los datos gubernamentales sean más fáciles de acceder y comprender”, se asoció con Databricks para desarrollar el punto de referencia, identificando a los Boletines del Tesoro como ideales y garantizando que las preguntas reflejaran casos de uso realistas.

Las 246 preguntas requieren que los agentes enfrenten desafíos confusos de documentos del mundo real: imágenes escaneadas, estructuras de tablas jerárquicas, datos temporales que abarcan múltiples informes y la necesidad de conocimiento externo, como ajustes de inflación. Las preguntas van desde búsquedas de valores simples hasta análisis de varios pasos que requieren cálculos estadísticos y comparaciones entre años.

Para garantizar que el punto de referencia requiera una recuperación real basada en documentos, Databricks filtró preguntas que los LLM podrían responder utilizando únicamente conocimiento paramétrico o búsqueda web. Esto eliminó preguntas más simples y algunas preguntas sorprendentemente complejas en las que los modelos aprovechaban registros financieros históricos memorizados durante la capacitación previa.

Cada pregunta tiene una respuesta verdadera validada (normalmente un número, a veces fechas o listas cortas), lo que permite una evaluación automatizada sin juicio humano. Esta elección de diseño es importante: permite enfoques de aprendizaje por refuerzo (RL) que requieren recompensas verificables, similar a cómo los modelos se entrenan en problemas de codificación.

El desempeño actual expone brechas fundamentales

Databricks probó el agente Claude Opus 4.5 (usando el SDK de Claude) y el agente GPT-5.1 (usando la API de búsqueda de archivos OpenAI). Los resultados deberían hacer reflexionar a cualquier empresa que apueste fuertemente por las capacidades actuales de los agentes.

Cuando se le proporcionan documentos PDF sin formato:

  • El agente Claude Opus 4.5 (con pensamiento predeterminado = alto) logró una precisión del 37,4%.

  • El agente GPT-5.1 (con razonamiento_effort=alto) logró una precisión del 43,5%.

Sin embargo, el rendimiento mejoró notablemente cuando se proporcionaron versiones analizadas previamente de las páginas utilizando Databricks. ai_parse_documentlo que indica que el bajo rendimiento del PDF sin formato se debe a que las API de LLM tienen dificultades para analizar en lugar de razonar. Incluso con los documentos analizados, los experimentos muestran margen de mejora.

Cuando se proporcionan documentos analizados mediante ai_parse_document de Databricks:

  • El agente Claude Opus 4.5 logró una precisión del 67,8 % (una mejora de +30,4 puntos porcentuales)

  • El agente GPT-5.1 logró una precisión del 52,8 % (una mejora de +9,3 puntos porcentuales)

Tres hallazgos clave para las implementaciones empresariales

Las pruebas identificaron conocimientos críticos para los profesionales:

La analítica sigue siendo el obstáculo fundamental: Las tablas complejas con encabezados anidados, celdas fusionadas y formatos inusuales a menudo producen valores desalineados. Incluso cuando recibían páginas precisas de Oracle, los agentes tenían problemas principalmente debido a errores de análisis, aunque el rendimiento casi se duplicaba con documentos previamente analizados.

El control de versiones de documentos crea ambigüedad: Los documentos financieros y regulatorios se revisan y reeditan, lo que significa que existen múltiples respuestas válidas según la fecha de publicación. Los agentes a menudo dejan de investigar cuando encuentran una respuesta plausible, perdiendo fuentes más confiables.

El razonamiento visual es una brecha: Alrededor del 3% de las preguntas requieren interpretación de tablas o gráficos, donde los agentes actuales fallan consistentemente. Para las empresas donde las visualizaciones de datos comunican conocimientos críticos, esto representa una limitación de capacidad significativa.

Cómo las empresas pueden utilizar OfficeQA

El diseño de referencia permite caminos de mejora específicos más allá de la simple puntuación.

“Como se puede ver la respuesta correcta, es fácil saber si el error proviene del análisis”, explicó Elsen.

Esta evaluación automatizada permite una iteración rápida en el análisis de tuberías. Las respuestas verdaderas verificadas también permiten un entrenamiento de RL similar a los puntos de referencia de codificación, ya que no se requiere juicio humano.

Elsen dijo que el punto de referencia proporciona “una señal de retroalimentación realmente fuerte” para los desarrolladores que trabajan en soluciones de búsqueda. Sin embargo, advirtió contra el tratamiento como datos de entrenamiento.

“Al menos en mi imaginación, el propósito de publicar esto es más una evaluación y no una fuente de datos de entrenamiento sin procesar”, dijo. “Si se sintoniza demasiado específicamente con ese entorno, no quedará claro cuán generalizables serían los resultados de su agente”.

Qué significa esto para las implementaciones de IA empresarial

Para las empresas que actualmente implementan o planifican sistemas de agentes de IA con uso intensivo de documentos, OfficeQA ofrece una aleccionadora prueba de la realidad. Incluso los modelos más recientes solo alcanzan un 43 % de precisión en archivos PDF sin formato y no alcanzan el 70 % de precisión incluso con un análisis de documentos ideal. El rendimiento en las preguntas más difíciles alcanza un nivel del 40%, lo que indica un margen sustancial de mejora.

Tres implicaciones inmediatas:

Evalúe la complejidad de su documento: Si sus documentos se asemejan al perfil de complejidad de los Boletines del Tesoro (imágenes escaneadas, estructuras de tablas anidadas, referencias entre documentos), espere una precisión muy inferior a las afirmaciones de marketing del proveedor. Pruebe sus documentos reales antes de implementarlos en producción.

Planifique el cuello de botella analítico: Los resultados de las pruebas indican que la analítica sigue siendo un obstáculo clave. Reserve tiempo y recursos para soluciones de análisis personalizadas en lugar de asumir que el OCR listo para usar será suficiente.

Planifique modos de falla en preguntas difíciles: Incluso con un análisis ideal, los agentes alcanzan un nivel estancado del 40% en cuestiones complejas de varios pasos. Para los flujos de trabajo de documentos de misión crítica que requieren análisis de múltiples documentos, cálculos estadísticos o razonamiento visual, es posible que las capacidades actuales de los agentes no estén listas sin una supervisión humana significativa.

Para las empresas que buscan liderar la inteligencia documental basada en IA, este punto de referencia proporciona un marco de evaluación concreto e identifica brechas de capacidades específicas que deben abordarse.

Fuente