Técnica

Claude solo venció a GPT-5, Gemini y Grok en tareas laborales del mundo real, según el propio estudio de Opensei


  • Operai ha lanzado GDPVAL, un nuevo sistema de evaluación para probar cómo funciona la IA en las tareas relacionadas con el trabajo
  • Claude Opus 4.1 sale a la cabeza, con ‘Chatgpt-5 High’ en segundo lugar
  • Las tareas incluyen cosas como enviar un correo electrónico una respuesta a un cliente insatisfecho

Todos estamos familiarizados con los puntos de referencia de AI, que miden el rendimiento en ciertas tareas, pero a menudo estas tareas no reflejan el mundo real y cómo las personas realmente usan la IA, especialmente en el trabajo.

Para combatir este problema, Openai, el creador de Chatgptestá introduciendo GDPVAL, una nueva forma de medir el rendimiento del modelo de IA utilizando tareas de trabajo del mundo real en comparación con un humano real en 44 ocupaciones, desde desarrolladores de software y abogados hasta enfermeras registradas e ingenieros mecánicos.

Fuente

Related Articles

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Check Also
Close
Back to top button