Claude solo venció a GPT-5, Gemini y Grok en tareas laborales del mundo real, según el propio estudio de Opensei

0 5 3 minutes read

Claude solo venció a GPT-5, Gemini y Grok en tareas laborales del mundo real, según el propio estudio de Opensei

Operai ha lanzado GDPVAL, un nuevo sistema de evaluación para probar cómo funciona la IA en las tareas relacionadas con el trabajo
Claude Opus 4.1 sale a la cabeza, con ‘Chatgpt-5 High’ en segundo lugar
Las tareas incluyen cosas como enviar un correo electrónico una respuesta a un cliente insatisfecho

Todos estamos familiarizados con los puntos de referencia de AI, que miden el rendimiento en ciertas tareas, pero a menudo estas tareas no reflejan el mundo real y cómo las personas realmente usan la IA, especialmente en el trabajo.

Para combatir este problema, Openai, el creador de Chatgptestá introduciendo GDPVAL, una nueva forma de medir el rendimiento del modelo de IA utilizando tareas de trabajo del mundo real en comparación con un humano real en 44 ocupaciones, desde desarrolladores de software y abogados hasta enfermeras registradas e ingenieros mecánicos.

Sorprendentemente, el estudio Operai muestra que el modelo de mejor rendimiento fue Claude Opus 4.1 de Anthrope, que superó no solo a GPT-5 de OpenAI sino también a Gemini y Grok.

Tasa de ganancia de gdpval

(Crédito de la imagen: OpenAI)

Este gráfico muestra la tasa general de victorias de GDPVal (los momentos en que la IA fue mejor que un experto en la industria) y muestra que Claude Opus 4.1 está a la cabeza con una tasa de victorias de 47.6, con ‘Chatgpt-5 High’ en segundo lugar con 38.8 y ‘Chatgpt O3 High’ a 34.1. ChatGPT-4O obtiene el más bajo, con una tasa de ganancia de 12.4, que está significativamente detrás de Grok 4 y Gemini 2.5 Pro.

El estudio encontró que Claude fue el mejor rendimiento En ocho de los nueve sectores de la industria que probó, incluidos el gobierno, la atención médica y la asistencia social. Los resultados muestran claramente que Claude Opus 4.1 conduce a una amplia gama de tareas relacionadas con el trabajo.

Tasas de ganancia de Claude por sector

(Crédito de la imagen: OpenAI)

Ejemplos de las tareas incluyen cosas como enviar un correo electrónico una respuesta a un cliente insatisfecho que solicita una devolución, optimización de un diseño de mesa para una feria de proveedores de primavera e inconsistencias de precios de auditoría en las órdenes de compra.

¿Qué hay en un nombre?

El nombre utilizado por OpenAI, GDPVAL, proviene del concepto de producto interno bruto (PIB) como un indicador económico clave. Operai quiere que GPDVAL sea ampliamente adoptado para ayudar a las conversaciones sobre las futuras mejoras de IA en evidencia en lugar de conjeturas.

Liberar los resultados que muestran a un competidor al frente parece ser un ejercicio de transparencia radical por OpenAi, pero eso se ajusta perfectamente a la filosofía de la compañía. “Nuestra misión es garantizar que la inteligencia general artificial beneficie a toda la humanidad. Como parte de nuestra misión, queremos comunicar de manera transparente el progreso de cómo los modelos de IA pueden ayudar a las personas en el mundo real”, lee un Declaración de OpenAI.

El documento, que está disponible para leer en su total en líneallega una semana después de que Operai lanzó un artículo más centrado en el consumidor que mostró que la mayoría de Usuarios de ChatGPT (70%) En realidad lo usaban en casa, en lugar de en el trabajo.

El estudio fue realizado por el Equipo de Investigación Económica de OpenAI y el economista de Harvard David Deming para la Oficina Nacional de Investigación Económica (NBER). Los resultados fueron sorprendentes para muchas personas, como anteriormente, el enfoque de los nuevos lanzamientos de ChatGPT se ha centrado mucho en tareas relacionadas con el trabajo como la codificación, la realización de presentaciones y ser una buena herramienta de investigación.

La noticia de que Claude Opus 4.1 es mejor en las tareas reales relacionadas con el trabajo, no solo los puntos de referencia, que incluso ‘ChatGPT-5 Alto’ podría significar un enfoque renovado de OpenAI hacia su base de usuarios cambiante.