Técnica

Operai dice que GPT-5 se acumula a los humanos en una amplia gama de trabajos

Operai lanzó un nuevo punto de referencia El jueves, eso prueba cómo funcionan sus modelos de IA en comparación con los profesionales humanos en una amplia gama de industrias y empleos. La prueba, GDPVAL, es un intento temprano de comprender cuán cerca están los sistemas de OpenAI para superar a los humanos en un trabajo económicamente valioso, una parte clave de la misión fundadora de la compañía para desarrollar inteligencia general artificial o AGI.

Operai dice que descubrió que su modelo GPT-5 y Claude Opus 4.1 de Anthrope “ya se están acercando a la calidad del trabajo producido por expertos de la industria”.

Eso no quiere decir que los modelos de OpenAi comenzarán a reemplazar a los humanos en sus trabajos de inmediato. A pesar de las predicciones de algunos CEO que AI tomará los trabajos de los humanos en solo unos años, Operai admite que GDPVAL hoy cubre un número muy limitado de tareas que las personas hacen en sus trabajos reales. Sin embargo, es una de las últimas formas en que la compañía está midiendo el progreso de la IA hacia este hito.

GDPVAL se basa en nueve industrias que más contribuyen al producto interno bruto de Estados Unidos, incluidos dominios como la atención médica, las finanzas, la fabricación y el gobierno. El punto de referencia prueba el rendimiento de un modelo de IA en 44 ocupaciones entre esas industrias, que van desde ingenieros de software hasta enfermeras y periodistas.

Para la primera versión de la prueba de Openai, GDPVal-V0, Operai solicitó a los profesionales experimentados que compararan informes generados por IA con los producidos por otros profesionales, y luego eligieron los mejores. Por ejemplo, un aviso pidió a los banqueros de inversión que crearan un panorama de la competencia para la industria de entrega de la última milla y los compararan con los informes generados por IA. OpenAi luego promedia la “tasa de victorias” de un modelo de IA contra los informes humanos en las 44 ocupaciones.

Para GPT-5-High, una versión asentada de GPT-5 con poder computacional adicional, la compañía dice que el modelo AI se clasificó como mejor o a la par con los expertos de la industria el 40.6% del tiempo.

Openai también probó el modelo Claude Opus 4.1 de Anthrope, que se clasificó como mejor o a la par con los expertos de la industria en el 49% de las tareas. Operai dice que cree que Claude obtuvo una puntuación tan alta debido a su tendencia a hacer gráficos agradables, en lugar de un rendimiento.

Evento de TechCrunch

San Francisco
|
27-29 de octubre de 2025

Crédito: OpenAI

Vale la pena señalar que la mayoría de los profesionales que trabajan hacen mucho más que enviar informes de investigación a su jefe, que es todo lo que prueba GDPVAL-V0. Openai reconoce esto y dice que planea crear pruebas más sólidas en el futuro que puedan explicar más industrias y flujos de trabajo interactivos.

No obstante, la compañía ve el progreso en GDPVAL como notable.

En una entrevista con TechCrunch, el economista jefe de Openi, el Dr. Aaron Chatterji, dijo que los resultados de GDPVAL sugieren que las personas en estos trabajos ahora pueden usar modelos AI para pasar tiempo en tareas más significativas.

“[Because] El modelo se está volviendo bueno en algunas de estas cosas “, dice Chatterji,” las personas en esos trabajos ahora pueden usar el modelo, cada vez más a medida que las capacidades mejoran, para descargar parte de su trabajo y hacer cosas de valor potencialmente más alto “.

El liderazgo de las evaluaciones de Openai, Tejal Patwardhan, le dice a TechCrunch que se siente alentada por la tasa de progreso en GDPVAL. El modelo GPT-4O de Openai obtuvo solo el 13.7% (victorias y lazos versus humanos), que se lanzó hace aproximadamente 15 meses. Ahora GPT-5 puntúa casi triple que, una tendencia que Patwardhan espera continuar.

Silicon Valley tiene una amplia gama de puntos de referencia que utiliza para medir el progreso de los modelos de IA y evaluar si un modelo dado es de vanguardia. Entre los más populares se encuentran AIME 2025 (una prueba de problemas matemáticos competitivos) y GPQA Diamond (una prueba de preguntas de ciencias a nivel de doctorado). Sin embargo, varios modelos de IA son cerca de la saturación En algunos de estos puntos de referencia, y muchos investigadores de IA han citado la necesidad de mejores pruebas Eso puede medir la competencia de la IA en las tareas del mundo real.

Los puntos de referencia como GDPVAL podrían volverse cada vez más importantes en esa conversación, ya que OpenAI argumenta que sus modelos de IA son valiosos para una amplia gama de industrias. Pero Operai puede necesitar una versión más completa de la prueba para decir definitivamente que sus modelos de IA pueden superar a los humanos.

Fuente

Related Articles

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Back to top button