Inicio Técnica Los nuevos modelos medianos Qwen3.5 de código abierto de Alibaba ofrecen rendimiento...

Técnica

Los nuevos modelos medianos Qwen3.5 de código abierto de Alibaba ofrecen rendimiento Sonnet 4.5 en computadoras locales

Por

26 febrero 2026

El ahora famoso equipo de desarrollo de Qwen AI de Alibaba lo ha vuelto a hacer: hace poco más de un día, lanzaron el Serie de modelos de gama media Qwen3.5 que consta de cuatro nuevos modelos de lenguaje grande (LLM) con soporte para llamadas a herramientas de agente, tres de los cuales están disponibles para uso comercial por parte de empresas y desarrolladores independientes bajo la licencia estándar de código abierto Apache 2.0:

Qwen3.5-35B-A3B
Qwen3.5-122B-A10B
Qwen3.5-27B

Los desarrolladores pueden descargarlos ahora en abrazando la cara y ModeloScope. Un cuarto modelo, Qwen3.5-Flash, parece ser propietario y sólo está disponible a través del API de estudio de modelo de nube de Alibabapero todavía ofrece una fuerte ventaja de costos en comparación con otros modelos en Occidente (consulte la tabla comparativa de precios a continuación).

Pero el gran giro de los modelos de código abierto es que ofrecen un rendimiento comparativamente alto en pruebas comparativas de terceros con modelos propietarios de tamaño similar de grandes empresas emergentes de EE. UU. como OpenAI o Anthropic, superando de hecho al GPT-5-mini de OpenAI y al Claude Sonnet 4.5 de Anthropic, este último modelo que fue lanzado hace cinco meses.

Y el equipo Qwen dice Diseñó estos modelos para que siguieran siendo muy precisos incluso cuando estuvieran “cuantificados”, un proceso que reduce aún más su espacio al reducir los números mediante los cuales se almacenan las configuraciones del modelo de muchos valores a muchos menos.

Fundamentalmente, esta versión trae ventanas contextuales de “nivel de frontera” a la PC de escritorio. El buque insignia Qwen3.5-35B-A3B ahora puede superar el millón de longitud de contexto de token en GPU de consumo con 32 GB de VRAM. Si bien no es algo a lo que todos tengan acceso, es mucho menos computacional que muchas otras opciones de rendimiento comparable.

Este salto es posible gracias a una precisión casi sin pérdidas con un peso de 4 bits y una cuantificación de caché KV, lo que permite a los desarrolladores procesar conjuntos de datos masivos sin una infraestructura de nivel de servidor.

Tecnología: Fuerza Delta

En el corazón del rendimiento de Qwen 3.5 se encuentra una sofisticada arquitectura híbrida. Si bien muchos modelos se basan exclusivamente en bloques de transformadores estándar, Qwen 3.5 integra redes Delta cerradas combinadas con un sistema experto en mezcla dispersa (MoE). Las especificaciones técnicas del Qwen3.5-35B-A3B revelan un diseño altamente eficiente:

Eficiencia de parámetros: Aunque el modelo alberga 35 mil millones de parámetros en total, solo activa 3 mil millones para cualquier token dado.
Diversidad de expertos: La capa MoE utiliza 256 expertos, con 8 expertos enrutados y 1 experto compartido que ayudan a mantener el rendimiento y reducir la latencia de inferencia.
Cuantización casi sin pérdidas: La serie mantiene una alta precisión incluso cuando se comprime en pesos de 4 bits, lo que reduce significativamente el consumo de memoria para la implementación local.
Lanzamiento del modelo básico: En un movimiento para apoyar a la comunidad de investigación, Alibaba ha abierto el código fuente Qwen3.5-35B-A3B-Base modelo junto con las versiones ajustadas a las instrucciones.

Producto: Inteligencia que ‘piensa’ primero

Qwen 3.5 introduce un “Modo de pensamiento” nativo como estado predeterminado. Antes de dar una respuesta final, el modelo genera una cadena interna de razonamiento – delimitada por etiquetas: para trabajar con lógica compleja. La línea de productos está adaptada a diferentes entornos de hardware:

Qwen3.5-27B: Optimizado para una alta eficiencia, admitiendo una longitud de contexto de más de 800 000 tokens.
Qwen3.5-Flash: La versión alojada de nivel de producción, que presenta una longitud de contexto de token predeterminada de 1 millón y herramientas oficiales integradas.
Qwen3.5-122B-A10B: Diseñado para GPU de nivel de servidor (80 GB de VRAM), este modelo admite longitudes de contexto de más de 1 millón y, al mismo tiempo, cierra la brecha con los modelos de vanguardia más grandes del mundo.

Los resultados de las pruebas comparativas validan este cambio arquitectónico. El modelo 35B-A3B supera notablemente a sus predecesores mucho más grandes, como el Qwen3-235B, así como a los ya mencionados GPT-5 mini y Sonnet 4.5 en categorías que incluyen conocimiento (MMMLU) y razonamiento visual (MMMU-Pro).

Integración de API y precios

Para aquellos que no alojan sus propios pesos, Alibaba Cloud Model Studio ofrece una API competitiva para Qwen3.5-Flash.

Prohibido: 0,1 dólares por 1 millón de tokens
Salida: 0,4 dólares por 1 millón de tokens
Creación de caché: 0,125 dólares por 1 millón de tokens
Lectura de caché: 0,01 dólares por 1 millón de tokens

La API también presenta un modelo de precios granular para llamadas de herramientas, con búsqueda web a $10 por cada 1000 llamadas y un intérprete de código que actualmente se ofrece por tiempo limitado sin costo alguno.

Esto convierte a Qwen3.5-Flash en una de las API más asequibles de ejecutar entre los principales LLM del mundo. Vea a continuación una tabla comparándolos:

Modelo	Prohibido	Salida	Costo total	Fuente
Qwen3 Turbo	$0.05	$0.20	$0.25	Nube de Alibaba
Qwen3.5-Flash	$0.10	$0.40	$0.50	Nube de Alibaba
chat de búsqueda profunda (V3.2-Exp)	$0.28	$0.42	$0.70	búsqueda profunda
razonador de búsqueda profunda (V3.2-Exp)	$0.28	$0.42	$0.70	búsqueda profunda
Grok 4.1 Rápido (razonamiento)	$0.20	$0.50	$0.70	xAI
Grok 4.1 Rápido (sin razonamiento)	$0.20	$0.50	$0.70	xAI
Minimax M2.5	$0.15	$1.20	$1.35	minimax
MiniMax M2.5-Rayo	$0.30	$2.40	$2.70	minimax
Vista previa flash de Géminis 3	$0.50	3,00 dólares estadounidenses	$3.50	Google
Kimi-k2.5	$0.60	3,00 dólares estadounidenses	$3.60	Disparo a la luna
GLM-5	1,00 dólares EE.UU.	$3.20	$4.20	Z.ai
ERNIE 5.0	$0.85	$3.40	$4.25	Baidu
Claude Haiku 4.5	1,00 dólares EE.UU.	5,00 dólares estadounidenses	6,00 dólares estadounidenses	antrópico
Qwen3-Max (23/01/2026)	$1.20	6,00 dólares estadounidenses	7,20 dólares estadounidenses	Nube de Alibaba
Géminis 3 Pro (≤200K)	2,00 dólares estadounidenses	12,00 dólares estadounidenses	14,00 dólares estadounidenses	Google
GPT-5.2	$1.75	14,00 dólares estadounidenses	$15.75	AbiertoAI
El soneto de Claude 4.5	3,00 dólares estadounidenses	15,00 dólares estadounidenses	18,00 dólares estadounidenses	antrópico
Géminis 3 Pro (>200K)	4,00 dólares estadounidenses	18,00 dólares estadounidenses	22,00 dólares estadounidenses	Google
Cerrar trabajo 4.6	5,00 dólares estadounidenses	25,00 dólares estadounidenses	30,00 dólares estadounidenses	antrópico
GPT-5.2 Pro	21,00 dólares estadounidenses	168,00 dólares estadounidenses	189,00 dólares estadounidenses	Abierto AI

Qué significa esto para los líderes técnicos empresariales y los tomadores de decisiones

Con el lanzamiento de Qwen3.5 Medium Models, la iteración rápida y los ajustes que alguna vez estuvieron reservados para laboratorios bien financiados ahora son accesibles para el desarrollo local en muchas empresas no técnicas, desvinculando efectivamente la IA sofisticada de los enormes gastos de capital.

En toda la organización, esta arquitectura transforma la forma en que se manejan y protegen los datos. La capacidad de incorporar localmente grandes repositorios de documentos o vídeos a escala horaria permite un análisis institucional profundo sin los riesgos de privacidad de las API de terceros.

Al ejecutar estos modelos especializados de “combinación de expertos” dentro de un firewall privado, las organizaciones pueden mantener un control soberano sobre sus datos mientras utilizan modos de “pensamiento” nativos y capacidades de llamada de herramientas autorizadas para crear agentes autónomos más confiables.

Los primeros usuarios de Hugging Face elogiaron específicamente la capacidad del modelo para “cerrar la brecha” en escenarios de agencia donde antes sólo los modelos cerrados más grandes podían competir.

Este cambio hacia una eficiencia arquitectónica a escala bruta garantiza que la integración de la IA siga siendo lo suficientemente consciente de los costos, segura y ágil para mantenerse al día con las necesidades operativas en evolución.

Fuente

Los nuevos modelos medianos Qwen3.5 de código abierto de Alibaba ofrecen rendimiento Sonnet 4.5 en computadoras locales

Tecnología: Fuerza Delta

Producto: Inteligencia que ‘piensa’ primero

Integración de API y precios

Qué significa esto para los líderes técnicos empresariales y los tomadores de decisiones

Últimas noticias

Etihad Cargo supera los 1.200 millones de dólares a medida que...

Una estrella de La isla de Gilligan recibió un disparo sobre...

Kim Jong-un advierte a Trump que está LISTO para enfrentar a...

“No hay manera de que vaya a la universidad y salga...

Resulta que la perplejidad podría ser la característica inactiva del Galaxy...

Cal superó a SMU para ganar su juego número 20 de...

WhiskyIntelligence.com » Blog Archive » Mark Maker aprovecha el poder del...

Acceso denegado

A pesar de la retórica política, el apoyo conservador a la...

La acción de ciencia ficción de los 90 con clasificación R...

El clip de ‘El Vampiro Lestat’ lo muestra descubriendo la entrevista...

Katie Taylor: Chantelle Cameron quiere ser la oponente del luchador irlandés...

Oceania Cruises lanza el programa de recomendación de embajadores de Oceania...

Kuwait indultó a 539 prisioneros por decreto emir | Noticias del...

Categoría