Inicio Técnica Qwen3-Max Thinking supera a Gemini 3 Pro y GPT-5.2 en el último...

Técnica

Qwen3-Max Thinking supera a Gemini 3 Pro y GPT-5.2 en el último examen de la humanidad (con investigación)

Por

27 enero 2026

Las empresas chinas de tecnología e inteligencia artificial continúan impresionando con el desarrollo de modelos de lenguaje de inteligencia artificial de vanguardia.

Los titulares de hoy son el equipo Qwen de investigadores de IA de Alibaba Cloud y la presentación de un nuevo modelo de razonamiento de lenguaje propietario. Qwen3-Max-Pensamiento.

Quizás recuerden, como lo cubrió VentureBeat el año pasado, que Qwen se hizo un nombre en el mercado global de IA en rápida evolución al proporcionar una variedad de potentes modelos de código abierto en múltiples modalidades, desde texto hasta imágenes y audio hablado. La compañía incluso obtuvo el respaldo del gigante estadounidense de alojamiento tecnológico Airbnb, cuyo director ejecutivo y cofundador Brian Chesky dijo que la empresa confiaba en los modelos gratuitos y de código abierto de Qwen. como una alternativa más asequible a las ofertas estadounidenses como las de OpenAI.

Ahora, con Qwen3-Max-Thinking patentado, el equipo de Qwen pretende igualar y, en algunos casos, superar las capacidades de razonamiento de GPT-5.2 y Gemini 3 Pro a través de la eficiencia arquitectónica y la autonomía del agente.

El lanzamiento llega en un momento crítico. Los laboratorios occidentales han definido ampliamente la categoría de “razonamiento” (a menudo denominada lógica del “Sistema 2”), pero los últimos puntos de referencia de Qwen sugieren que la brecha se ha cerrado.

Además, el precio relativamente asequible de la empresa Estrategia de precios de API apunta agresivamente a la adopción empresarial. Sin embargo, como se trata de un modelo chino, algunas empresas estadounidenses con estrictos requisitos y consideraciones de seguridad nacional pueden desconfiar de adoptarlo.

La arquitectura: “Escala de tiempo de prueba” redefinida

La principal innovación que impulsa Qwen3-Max-Thinking es una desviación de los métodos de inferencia estándar. Si bien la mayoría de los modelos generan tokens de forma lineal, Qwen3 utiliza un “modo pesado” impulsado por una técnica conocida como “escalado en el tiempo de prueba”.

En términos simples, esta técnica permite que el modelo intercambie computación por inteligencia. Pero a diferencia del ingenuo muestreo “lo mejor de N”, donde un modelo puede generar 100 respuestas y elegir la mejor, Qwen3-Max-Thinking emplea una estrategia de múltiples rondas de experiencia acumulativa.

Este enfoque imita la resolución de problemas humanos. Cuando el modelo encuentra una consulta compleja, no se limita a adivinar; se involucra en una autorreflexión iterativa. Utiliza un motor de “experiencia” patentado para extraer conocimientos de pasos de pensamiento anteriores. Esto permite al modelo:

Identificar callejones sin salida: Reconocer cuándo una línea de razonamiento está fallando sin tener que repasarla por completo.
Computación de enfoque: Redirigir el poder de procesamiento a “incertidumbres no resueltas” en lugar de volver a derivar conclusiones conocidas.

Las ganancias de eficiencia son tangibles. Al evitar razonamientos redundantes, el modelo integra un contexto histórico más rico en la misma ventana. El equipo de Qwen informa que este método ha generado enormes aumentos de rendimiento sin disparar los costos de los tokens:

GPQA (ciencias a nivel de doctorado): Las puntuaciones mejoraron de 90,3 a 92,8.
LiveCodeBenchv6: El rendimiento saltó de 88,0 a 91,4.

Más allá del pensamiento puro: herramientas adaptativas

Si bien los modelos “pensantes” son poderosos, históricamente han estado aislados: excelentes en matemáticas, pero malos para navegar por la web o ejecutar código. Qwen3-Max-Thinking cierra esta brecha integrando efectivamente “modos de pensamiento y no pensamiento”.

El modelo presenta capacidades de uso de herramientas adaptables, lo que significa que selecciona de forma autónoma la herramienta adecuada para el trabajo, sin necesidad de que el usuario se lo indique manualmente. Puede cambiar sin problemas entre:

Búsqueda y extracción web: Para consultas factuales en tiempo real.
Memoria: Para almacenar y recuperar contexto específico del usuario.
Intérprete de código: Escriba y ejecute fragmentos de Python para tareas computacionales.

En el “Modo de pensamiento”, el modelo admite estas herramientas simultáneamente. Esta característica es fundamental para aplicaciones empresariales donde un modelo puede necesitar verificar un hecho (Buscar), calcular una proyección (Intérprete de código) y luego razonar sobre la implicación estratégica (Pensamiento), todo a la vez.

Empíricamente, el equipo señala que esta combinación “mitiga eficazmente las alucinaciones”, ya que el modelo puede basar su razonamiento en datos externos verificables en lugar de depender únicamente de sus pesos de entrenamiento.

Análisis de referencia: la historia de los datos

Qwen no se avergüenza de las comparaciones directas.

En el HMMT del 25 de febrero, un punto de referencia de razonamiento riguroso, Qwen3-Max-Thinking obtuvo una puntuación de 98,0, superando a Gemini 3 Pro (97,5) y liderando significativamente a DeepSeek V3.2 (92,5).

Sin embargo, la señal más importante para los desarrolladores es, sin duda, Agentic Search. En el “Último Examen de la Humanidad” (HLE), el punto de referencia que mide el desempeño en 3.000 preguntas de posgrado “a prueba de Google” en matemáticas, ciencias, informática, humanidades e ingeniería, Qwen3-Max-Thinking, equipado con herramientas de investigación web, obtuvo una puntuación de 49,8, superando a Gemini 3 Pro (45,8) y GPT-5.2-Thinking (45,5) .

Esto sugiere que la arquitectura Qwen3-Max-Thinking es especialmente adecuada para flujos de trabajo de agencias complejos y de varios pasos donde se requiere la recuperación de datos externos.

En tareas de codificación, el modelo también brilla. En Arena-Hard v2, logró una puntuación de 90,2, dejando atrás a competidores como Claude-Opus-4.5 (76,7).

La economía del razonamiento: análisis de precios

Por primera vez, tenemos una visión clara de la economía del modelo de razonamiento de nivel superior de Qwen. Alibaba Cloud se ha posicionado qwen3-max-2026-01-23 como una oferta premium pero asequible en su API.

Prohibido: $1.20 por 1 millón de tokens (para contextos predeterminados <= 32k).
Salida: 6,00 dólares estadounidenses por 1 millón de tokens.

En un nivel básico, así es como se compara Qwen3-Max-Thinking:

Modelo	Entrada (/1M)	Salida (/1M)	Costo total	Fuente
Qwen3 Turbo	$0.05	$0.20	$0.25	Nube de Alibaba
Grok 4.1 Rápido (razonamiento)	$0.20	$0.50	$0.70	xAI
Grok 4.1 Rápido (sin razonamiento)	$0.20	$0.50	$0.70	xAI
chat de búsqueda profunda (V3.2-Exp)	$0.28	$0.42	$0.70	búsqueda profunda
razonador de búsqueda profunda (V3.2-Exp)	$0.28	$0.42	$0.70	búsqueda profunda
Qwen 3 Plus	$0.40	$1.20	$1.60	Nube de Alibaba
ERNIE 5.0	$0.85	$3.40	$4.25	Qianfan
Vista previa flash de Géminis 3	$0.50	3,00 dólares estadounidenses	$3.50	Google
Claude Haiku 4.5	1,00 dólares EE.UU.	5,00 dólares estadounidenses	6,00 dólares estadounidenses	antrópico
Pensamiento Qwen3-Max (23/01/2026)	$1.20	6,00 dólares estadounidenses	7,20 dólares estadounidenses	Nube de Alibaba
Géminis 3 Pro (≤200K)	2,00 dólares estadounidenses	12,00 dólares estadounidenses	14,00 dólares estadounidenses	Google
GPT-5.2	$1.75	14,00 dólares estadounidenses	$15.75	Abierto AI
El soneto de Claude 4.5	3,00 dólares estadounidenses	15,00 dólares estadounidenses	18,00 dólares estadounidenses	antrópico
Géminis 3 Pro (>200K)	4,00 dólares estadounidenses	18,00 dólares estadounidenses	22,00 dólares estadounidenses	Google
Cerrar Trabajo 4.5	5,00 dólares estadounidenses	25,00 dólares estadounidenses	30,00 dólares estadounidenses	antrópico
GPT-5.2 Pro	21,00 dólares estadounidenses	168,00 dólares estadounidenses	189,00 dólares estadounidenses	Abierto AI

Esta estructura de precios es agresiva y socava muchos modelos emblemáticos heredados y al mismo tiempo ofrece un rendimiento de vanguardia.

Sin embargo, los desarrolladores deberían considerar los precios granulares de las nuevas funciones de los agentes, ya que Qwen separa el costo de “pensar” (tokens) del costo de “hacer” (usar herramientas).

Estrategia de búsqueda de agentes: Ambos estándar search_strategy:agent y cuanto más avanzado search_strategy:agent_max costo $10 por cada 1000 llamadas.
- Observación: EL agent_max Actualmente, la estrategia está marcada como una “oferta por tiempo limitado”, lo que sugiere que su precio podría subir más adelante.
Búsqueda web: Cuesta $10 por cada 1000 llamadas a través de la API de Responses.

Nivel promocional gratuito:Para fomentar la adopción de sus funciones más avanzadas, Alibaba Cloud ofrece actualmente dos herramientas principales de forma gratuita por tiempo limitado:

Extractor web: Gratis (Tiempo limitado).
Intérprete de código: Gratis (Tiempo limitado).

Este modelo de precios (bajo costo simbólico + precio de herramientas a la carta) permite a los desarrolladores crear agentes complejos que sean rentables para el procesamiento de textos, mientras pagan una prima solo cuando se activan explícitamente acciones externas, como una búsqueda web en vivo.

Ecosistema de desarrolladores

Al reconocer que el rendimiento es inútil sin integración, Alibaba Cloud se ha asegurado de que Qwen3-Max-Thinking esté listo para usar.

Compatibilidad con OpenAI: La API admite el formato estándar OpenAI, lo que permite a los equipos cambiar de modelo simplemente cambiando el base_url y model nombre.
Compatibilidad antropogénica: En un movimiento inteligente para capturar el mercado de la codificación, la API también es compatible con el protocolo Anthropic. Esto hace que Qwen3-Max-Thinking sea compatible con Código Claudioun entorno de codificación de agentes popular.

el veredicto

Qwen3-Max-Thinking representa una maduración del mercado de la IA en 2026. Lleva la conversación más allá de “quién tiene el chatbot más inteligente” a “quién tiene el agente más capaz”.

Al combinar el razonamiento de alta eficiencia con el uso adaptable y autónomo de herramientas (y fijar el precio de cómo se mueven), Qwen se ha establecido firmemente como un contendiente de primer nivel por el trono de la IA empresarial.

Para desarrolladores y empresas, las ventanas “Gratis por tiempo limitado” en Code Interpreter y Web Extractor sugieren que ahora es el momento de experimentar. Las guerras de ingenio están lejos de terminar, pero Qwen acaba de desplegar un gran bateador.

Fuente

Qwen3-Max Thinking supera a Gemini 3 Pro y GPT-5.2 en el último examen de la humanidad (con investigación)

La arquitectura: “Escala de tiempo de prueba” redefinida

Más allá del pensamiento puro: herramientas adaptativas

Análisis de referencia: la historia de los datos

La economía del razonamiento: análisis de precios

Ecosistema de desarrolladores

el veredicto

Últimas noticias

Super Bowl 2026: Por qué Tom Brady no apoyará a los...

Debes verlo: Gulshan Devaiya Nadie lo sabía

La verdad sobre el SEXTO ‘dedo de bruja’ de Ana Bolena...

En cuádruple asesinato-suicidio, los padres matan a sus dos hijos adolescentes...

American Airlines, Marriott y Royal Caribbean se encuentran entre los ganadores...

‘Más fuerte, más rápido, mejor, más inteligente que todos’

¿Qué pasa cuando dejas la C-Suite? Esta startup tiene la respuesta.

Acceso denegado

¿Por qué cancelo mi suscripción a Hello Fresh después de 5...

Trader Joe’s está duplicando sus operaciones de productos frescos y alimentos...

Después de tres décadas, Sunny Deol interpretará a un abogado en...

El Atlético de Madrid acuerda el fichaje del objetivo del Manchester...

Arrestan a tres indios asaltados y baleados en Surrey después de...

Acciones: Palantir y las ganancias del ISM impulsan el repunte de...

Categoría