Hace apenas unas semanas, Google presentó su Géminis 3 modelo, afirmando que ha alcanzado una posición de liderazgo en varios puntos de referencia de IA. Pero el desafío con los puntos de referencia proporcionados por los proveedores es que son sólo eso: proporcionados por los proveedores.
Una nueva evaluación neutral para los proveedores de Prolíficosin embargo, coloca a Gemini 3 en la cima de la clasificación. Este no es un conjunto de referencias académicas; más bien, es un conjunto de atributos del mundo real lo que interesa a los usuarios y organizaciones reales.
Prolific fue fundada por investigadores de la Universidad de Oxford. La empresa proporciona datos humanos confiables y de alta calidad para impulsar una investigación rigurosa y el desarrollo ético de la IA. El “Referencia HUMANA” aplica este enfoque utilizando muestreo humano representativo y pruebas ciegas para comparar rigurosamente modelos de IA en una variedad de escenarios de usuario, midiendo no solo el rendimiento técnico sino también la confianza, la adaptabilidad y el estilo de comunicación del usuario.
La última prueba de HUMAINE evaluó a 26.000 usuarios en una prueba de modelo ciego. En la evaluación, la puntuación de confianza del Gemini 3 Pro aumentó del 16% al 69%, la más alta jamás registrada por Prolific. Gemini 3 ahora ocupa el primer lugar en términos de confianza, ética y seguridad el 69% de las veces en todos los subgrupos demográficos, en comparación con su predecesor Gemini 2.5 Pro, que ocupó el primer lugar solo el 16% de las veces.
En general, Gemini 3 ocupó el primer lugar en tres de las cuatro categorías de evaluación: desempeño y razonamiento, interacción y adaptabilidad, y confianza y seguridad. Sólo perdió en estilo de comunicación, donde DeepSeek V3 superó las preferencias con un 43%. La prueba HUMAINE también mostró que Gemini 3 funcionó consistentemente bien en 22 datos demográficos de usuarios diferentes, incluidas variaciones en edad, género, origen étnico y orientación política. La evaluación también encontró que los usuarios ahora tienen cinco veces más probabilidades de elegir el modelo en comparaciones directas y ciegas.
Pero la clasificación importa menos que por qué ganó.
“Es coherencia en una amplia gama de casos de uso diferentes y una personalidad y estilo que atrae a una amplia gama de tipos de usuarios”, dijo a VentureBeat Phelim Bradley, cofundador y director ejecutivo de Prolific. “Si bien en algunos casos específicos, subgrupos pequeños o un tipo específico de conversación prefieren otros modelos, es la amplitud de conocimiento y la flexibilidad del modelo en una variedad de diferentes casos de uso y tipos de audiencia lo que le permitió superar este punto de referencia en particular”.
Cómo las pruebas a ciegas revelan lo que los puntos de referencia académicos pasan por alto
La metodología de HUMAINE expone lagunas en la forma en que la industria evalúa los modelos. Los usuarios interactúan con dos modelos simultáneamente en múltiples conversaciones. No saben qué proveedores impulsan cada respuesta. Discuten cualquier tema que sea importante para ellos, no preguntas de prueba predeterminadas.
Es la muestra en sí lo que importa. HUMAINE utiliza un muestreo representativo de las poblaciones de EE. UU. y el Reino Unido, controlando por edad, género, origen étnico y orientación política. Esto revela algo que los puntos de referencia estáticos no pueden capturar: el rendimiento del modelo varía según la audiencia.
“Si tomamos una tabla de clasificación de IA, es posible que la mayoría de ellas todavía tengan una lista bastante estática”, dijo Bradley. “Pero para nosotros, si controlas la audiencia, terminamos con una tabla de clasificación ligeramente diferente ya sea que estés mirando una muestra de izquierda, una muestra de derecha, EE. UU., Reino Unido. Y creo que la edad fue en realidad la condición declarada más diferente en nuestro experimento”.
Para las empresas que implementan IA en poblaciones diversas de empleados, esto es importante. Un modelo que funciona bien para un grupo demográfico puede tener un rendimiento inferior para otro.
La metodología también aborda una pregunta fundamental en la evaluación de la IA: ¿por qué utilizar jueces humanos cuando la IA puede evaluarse a sí misma? Bradley señaló que su empresa utiliza jueces de IA en ciertos casos de uso, aunque enfatizó que la evaluación humana sigue siendo el factor crítico.
“Vemos que el mayor beneficio proviene de la orquestación inteligente de los datos humanos y de los jueces de LLM, los cuales tienen fortalezas y debilidades que, cuando se combinan de manera inteligente, funcionan mejor juntos”, dijo Bradley. “Pero todavía pensamos que los datos humanos son donde está el alfa. Todavía somos extremadamente optimistas de que los datos humanos y la inteligencia humana son necesarios para estar al tanto”.
Qué significa la confianza en la evaluación de la IA
Confianza, Ética y Seguridad miden la confianza del usuario en la confiabilidad, la precisión de los hechos y el comportamiento responsable. En la metodología HUMAINE, la confianza no es una afirmación del proveedor ni una métrica técnica: es lo que los usuarios informan después de conversaciones ciegas con modelos de la competencia.
El valor del 69% representa la probabilidad entre grupos demográficos. Esta coherencia es más importante que las puntuaciones agregadas porque las organizaciones pueden atender a poblaciones diversas.
“No había conocimiento de que estuvieran usando Gemini en este escenario”, dijo Bradley. “Se basó simplemente en la respuesta ciega de múltiples giros”.
Esto separa la confianza percibida de la confianza ganada. Los usuarios evaluaron los resultados de los modelos sin saber qué proveedor los produjo, eliminando la ventaja de marca de Google. Para implementaciones orientadas al cliente, donde el proveedor de IA permanece invisible para los usuarios finales, esta distinción es importante.
¿Qué deberían hacer las empresas ahora?
Una de las cosas fundamentales que las empresas deben hacer ahora al considerar diferentes modelos es adoptar un marco de evaluación que funcione.
“Cada vez es más difícil evaluar modelos basados únicamente en vibraciones”, afirmó Bradley. “Creo que cada vez necesitamos enfoques científicos más rigurosos para comprender realmente cómo funcionan estos modelos”.
Los datos de HUMAINE proporcionan un marco: pruebe la coherencia entre los casos de uso y la demografía de los usuarios, no solo el rendimiento máximo en tareas específicas. Pruebas ciegas para separar la calidad del modelo de la percepción de la marca. Utilice muestras representativas que coincidan con su población de usuarios real. Planifique una evaluación continua a medida que cambien los modelos.
Para las empresas que buscan implementar IA a escala, esto significa ir más allá de “qué modelo es mejor” a “qué modelo es mejor para nuestro caso de uso específico, la demografía del usuario y los atributos requeridos”.
El rigor del muestreo representativo y las pruebas ciegas proporciona los datos para tomar esta determinación, algo que los puntos de referencia técnicos y las evaluaciones basadas en vibraciones no pueden proporcionar.













