Inicio Técnica Gemini 3 Pro obtiene un 69% de confianza en pruebas ciegas, frente...

Técnica

Gemini 3 Pro obtiene un 69% de confianza en pruebas ciegas, frente al 16% de Gemini 2.5: el caso para evaluar la IA basándose en la confianza del mundo real, no en puntos de referencia académicos

Por

4 diciembre 2025

Hace apenas unas semanas, Google presentó su Géminis 3 modelo, afirmando que ha alcanzado una posición de liderazgo en varios puntos de referencia de IA. Pero el desafío con los puntos de referencia proporcionados por los proveedores es que son sólo eso: proporcionados por los proveedores.

Una nueva evaluación neutral para los proveedores de Prolíficosin embargo, coloca a Gemini 3 en la cima de la clasificación. Este no es un conjunto de referencias académicas; más bien, es un conjunto de atributos del mundo real lo que interesa a los usuarios y organizaciones reales.

Prolific fue fundada por investigadores de la Universidad de Oxford. La empresa proporciona datos humanos confiables y de alta calidad para impulsar una investigación rigurosa y el desarrollo ético de la IA. El “Referencia HUMANA” aplica este enfoque utilizando muestreo humano representativo y pruebas ciegas para comparar rigurosamente modelos de IA en una variedad de escenarios de usuario, midiendo no solo el rendimiento técnico sino también la confianza, la adaptabilidad y el estilo de comunicación del usuario.

La última prueba de HUMAINE evaluó a 26.000 usuarios en una prueba de modelo ciego. En la evaluación, la puntuación de confianza del Gemini 3 Pro aumentó del 16% al 69%, la más alta jamás registrada por Prolific. Gemini 3 ahora ocupa el primer lugar en términos de confianza, ética y seguridad el 69% de las veces en todos los subgrupos demográficos, en comparación con su predecesor Gemini 2.5 Pro, que ocupó el primer lugar solo el 16% de las veces.

En general, Gemini 3 ocupó el primer lugar en tres de las cuatro categorías de evaluación: desempeño y razonamiento, interacción y adaptabilidad, y confianza y seguridad. Sólo perdió en estilo de comunicación, donde DeepSeek V3 superó las preferencias con un 43%. La prueba HUMAINE también mostró que Gemini 3 funcionó consistentemente bien en 22 datos demográficos de usuarios diferentes, incluidas variaciones en edad, género, origen étnico y orientación política. La evaluación también encontró que los usuarios ahora tienen cinco veces más probabilidades de elegir el modelo en comparaciones directas y ciegas.

Pero la clasificación importa menos que por qué ganó.

“Es coherencia en una amplia gama de casos de uso diferentes y una personalidad y estilo que atrae a una amplia gama de tipos de usuarios”, dijo a VentureBeat Phelim Bradley, cofundador y director ejecutivo de Prolific. “Si bien en algunos casos específicos, subgrupos pequeños o un tipo específico de conversación prefieren otros modelos, es la amplitud de conocimiento y la flexibilidad del modelo en una variedad de diferentes casos de uso y tipos de audiencia lo que le permitió superar este punto de referencia en particular”.

Cómo las pruebas a ciegas revelan lo que los puntos de referencia académicos pasan por alto

La metodología de HUMAINE expone lagunas en la forma en que la industria evalúa los modelos. Los usuarios interactúan con dos modelos simultáneamente en múltiples conversaciones. No saben qué proveedores impulsan cada respuesta. Discuten cualquier tema que sea importante para ellos, no preguntas de prueba predeterminadas.

Es la muestra en sí lo que importa. HUMAINE utiliza un muestreo representativo de las poblaciones de EE. UU. y el Reino Unido, controlando por edad, género, origen étnico y orientación política. Esto revela algo que los puntos de referencia estáticos no pueden capturar: el rendimiento del modelo varía según la audiencia.

“Si tomamos una tabla de clasificación de IA, es posible que la mayoría de ellas todavía tengan una lista bastante estática”, dijo Bradley. “Pero para nosotros, si controlas la audiencia, terminamos con una tabla de clasificación ligeramente diferente ya sea que estés mirando una muestra de izquierda, una muestra de derecha, EE. UU., Reino Unido. Y creo que la edad fue en realidad la condición declarada más diferente en nuestro experimento”.

Para las empresas que implementan IA en poblaciones diversas de empleados, esto es importante. Un modelo que funciona bien para un grupo demográfico puede tener un rendimiento inferior para otro.

La metodología también aborda una pregunta fundamental en la evaluación de la IA: ¿por qué utilizar jueces humanos cuando la IA puede evaluarse a sí misma? Bradley señaló que su empresa utiliza jueces de IA en ciertos casos de uso, aunque enfatizó que la evaluación humana sigue siendo el factor crítico.

“Vemos que el mayor beneficio proviene de la orquestación inteligente de los datos humanos y de los jueces de LLM, los cuales tienen fortalezas y debilidades que, cuando se combinan de manera inteligente, funcionan mejor juntos”, dijo Bradley. “Pero todavía pensamos que los datos humanos son donde está el alfa. Todavía somos extremadamente optimistas de que los datos humanos y la inteligencia humana son necesarios para estar al tanto”.

Qué significa la confianza en la evaluación de la IA

Confianza, Ética y Seguridad miden la confianza del usuario en la confiabilidad, la precisión de los hechos y el comportamiento responsable. En la metodología HUMAINE, la confianza no es una afirmación del proveedor ni una métrica técnica: es lo que los usuarios informan después de conversaciones ciegas con modelos de la competencia.

El valor del 69% representa la probabilidad entre grupos demográficos. Esta coherencia es más importante que las puntuaciones agregadas porque las organizaciones pueden atender a poblaciones diversas.

“No había conocimiento de que estuvieran usando Gemini en este escenario”, dijo Bradley. “Se basó simplemente en la respuesta ciega de múltiples giros”.

Esto separa la confianza percibida de la confianza ganada. Los usuarios evaluaron los resultados de los modelos sin saber qué proveedor los produjo, eliminando la ventaja de marca de Google. Para implementaciones orientadas al cliente, donde el proveedor de IA permanece invisible para los usuarios finales, esta distinción es importante.

¿Qué deberían hacer las empresas ahora?

Una de las cosas fundamentales que las empresas deben hacer ahora al considerar diferentes modelos es adoptar un marco de evaluación que funcione.

“Cada vez es más difícil evaluar modelos basados únicamente en vibraciones”, afirmó Bradley. “Creo que cada vez necesitamos enfoques científicos más rigurosos para comprender realmente cómo funcionan estos modelos”.

Los datos de HUMAINE proporcionan un marco: pruebe la coherencia entre los casos de uso y la demografía de los usuarios, no solo el rendimiento máximo en tareas específicas. Pruebas ciegas para separar la calidad del modelo de la percepción de la marca. Utilice muestras representativas que coincidan con su población de usuarios real. Planifique una evaluación continua a medida que cambien los modelos.

Para las empresas que buscan implementar IA a escala, esto significa ir más allá de “qué modelo es mejor” a “qué modelo es mejor para nuestro caso de uso específico, la demografía del usuario y los atributos requeridos”.

El rigor del muestreo representativo y las pruebas ciegas proporciona los datos para tomar esta determinación, algo que los puntos de referencia técnicos y las evaluaciones basadas en vibraciones no pueden proporcionar.

Fuente

Gemini 3 Pro obtiene un 69% de confianza en pruebas ciegas, frente al 16% de Gemini 2.5: el caso para evaluar la IA basándose en la confianza del mundo real, no en puntos de referencia académicos

Cómo las pruebas a ciegas revelan lo que los puntos de referencia académicos pasan por alto

Qué significa la confianza en la evaluación de la IA

¿Qué deberían hacer las empresas ahora?

Últimas noticias

India puede extender la importación libre de impuestos de legumbres más...

Revisión de la temporada 7 de Virgin River: llena de amor...

El actual campeón del mundo dice que destruirá al primer ministro...

Casi 3,2 millones de personas en todo Irán fueron desplazadas debido...

Después de 4 años, un extraño agujero en la trama de...

¡Amazon MX Player presenta más de 150 programas para 2026, incluida...

Las prestatarias son más disciplinadas en los pagos: estudio

Juez dice que no habrá nuevo juicio para el asesino de...

Braulio Amado sobre por qué hay inspiración ilimitada en el mundo,...

El nuevo robovac con detección de manchas por IA de Dyson...

Kate Middleton da información actualizada sobre su salud y revela lo...

Un plan sencillo para arreglar el calendario de la NBA sin...

Hungría desclasificará el informe de seguridad después de que el primer...

India tiene reservas totales de carbón para 88 días y confía...

Categoría