El ahora famoso equipo de desarrollo de Qwen AI de Alibaba lo ha vuelto a hacer: hace poco más de un día, lanzaron el Serie de modelos de gama media Qwen3.5 que consta de cuatro nuevos modelos de lenguaje grande (LLM) con soporte para llamadas a herramientas de agente, tres de los cuales están disponibles para uso comercial por parte de empresas y desarrolladores independientes bajo la licencia estándar de código abierto Apache 2.0:
Qwen3.5-35B-A3B
Qwen3.5-122B-A10B
Qwen3.5-27B
Los desarrolladores pueden descargarlos ahora en abrazando la cara y ModeloScope. Un cuarto modelo, Qwen3.5-Flash, parece ser propietario y sólo está disponible a través del API de estudio de modelo de nube de Alibabapero todavía ofrece una fuerte ventaja de costos en comparación con otros modelos en Occidente (consulte la tabla comparativa de precios a continuación).
Pero el gran giro de los modelos de código abierto es que ofrecen un rendimiento comparativamente alto en pruebas comparativas de terceros con modelos propietarios de tamaño similar de grandes empresas emergentes de EE. UU. como OpenAI o Anthropic, superando de hecho al GPT-5-mini de OpenAI y al Claude Sonnet 4.5 de Anthropic, este último modelo que fue lanzado hace cinco meses.
Y el equipo Qwen dice Diseñó estos modelos para que siguieran siendo muy precisos incluso cuando estuvieran “cuantificados”, un proceso que reduce aún más su espacio al reducir los números mediante los cuales se almacenan las configuraciones del modelo de muchos valores a muchos menos.
Fundamentalmente, esta versión trae ventanas contextuales de “nivel de frontera” a la PC de escritorio. El buque insignia Qwen3.5-35B-A3B ahora puede superar el millón de longitud de contexto de token en GPU de consumo con 32 GB de VRAM. Si bien no es algo a lo que todos tengan acceso, es mucho menos computacional que muchas otras opciones de rendimiento comparable.
Este salto es posible gracias a una precisión casi sin pérdidas con un peso de 4 bits y una cuantificación de caché KV, lo que permite a los desarrolladores procesar conjuntos de datos masivos sin una infraestructura de nivel de servidor.
Tecnología: Fuerza Delta
En el corazón del rendimiento de Qwen 3.5 se encuentra una sofisticada arquitectura híbrida. Si bien muchos modelos se basan exclusivamente en bloques de transformadores estándar, Qwen 3.5 integra redes Delta cerradas combinadas con un sistema experto en mezcla dispersa (MoE). Las especificaciones técnicas del Qwen3.5-35B-A3B revelan un diseño altamente eficiente:
Eficiencia de parámetros: Aunque el modelo alberga 35 mil millones de parámetros en total, solo activa 3 mil millones para cualquier token dado.
Diversidad de expertos: La capa MoE utiliza 256 expertos, con 8 expertos enrutados y 1 experto compartido que ayudan a mantener el rendimiento y reducir la latencia de inferencia.
Cuantización casi sin pérdidas: La serie mantiene una alta precisión incluso cuando se comprime en pesos de 4 bits, lo que reduce significativamente el consumo de memoria para la implementación local.
Lanzamiento del modelo básico: En un movimiento para apoyar a la comunidad de investigación, Alibaba ha abierto el código fuente Qwen3.5-35B-A3B-Base modelo junto con las versiones ajustadas a las instrucciones.
Producto: Inteligencia que ‘piensa’ primero
Qwen 3.5 introduce un “Modo de pensamiento” nativo como estado predeterminado. Antes de dar una respuesta final, el modelo genera una cadena interna de razonamiento – delimitada por etiquetas: para trabajar con lógica compleja. La línea de productos está adaptada a diferentes entornos de hardware:
Qwen3.5-27B: Optimizado para una alta eficiencia, admitiendo una longitud de contexto de más de 800 000 tokens.
Qwen3.5-Flash: La versión alojada de nivel de producción, que presenta una longitud de contexto de token predeterminada de 1 millón y herramientas oficiales integradas.
Qwen3.5-122B-A10B: Diseñado para GPU de nivel de servidor (80 GB de VRAM), este modelo admite longitudes de contexto de más de 1 millón y, al mismo tiempo, cierra la brecha con los modelos de vanguardia más grandes del mundo.
Los resultados de las pruebas comparativas validan este cambio arquitectónico. El modelo 35B-A3B supera notablemente a sus predecesores mucho más grandes, como el Qwen3-235B, así como a los ya mencionados GPT-5 mini y Sonnet 4.5 en categorías que incluyen conocimiento (MMMLU) y razonamiento visual (MMMU-Pro).
Integración de API y precios
Para aquellos que no alojan sus propios pesos, Alibaba Cloud Model Studio ofrece una API competitiva para Qwen3.5-Flash.
Prohibido: 0,1 dólares por 1 millón de tokens
Salida: 0,4 dólares por 1 millón de tokens
Creación de caché: 0,125 dólares por 1 millón de tokens
Lectura de caché: 0,01 dólares por 1 millón de tokens
La API también presenta un modelo de precios granular para llamadas de herramientas, con búsqueda web a $10 por cada 1000 llamadas y un intérprete de código que actualmente se ofrece por tiempo limitado sin costo alguno.
Esto convierte a Qwen3.5-Flash en una de las API más asequibles de ejecutar entre los principales LLM del mundo. Vea a continuación una tabla comparándolos:
Modelo | Prohibido | Salida | Costo total | Fuente |
Qwen3 Turbo | $0.05 | $0.20 | $0.25 | |
Qwen3.5-Flash | $0.10 | $0.40 | $0.50 | |
chat de búsqueda profunda (V3.2-Exp) | $0.28 | $0.42 | $0.70 | |
razonador de búsqueda profunda (V3.2-Exp) | $0.28 | $0.42 | $0.70 | |
Grok 4.1 Rápido (razonamiento) | $0.20 | $0.50 | $0.70 | |
Grok 4.1 Rápido (sin razonamiento) | $0.20 | $0.50 | $0.70 | |
Minimax M2.5 | $0.15 | $1.20 | $1.35 | |
MiniMax M2.5-Rayo | $0.30 | $2.40 | $2.70 | |
Vista previa flash de Géminis 3 | $0.50 | 3,00 dólares estadounidenses | $3.50 | |
Kimi-k2.5 | $0.60 | 3,00 dólares estadounidenses | $3.60 | |
GLM-5 | 1,00 dólares EE.UU. | $3.20 | $4.20 | |
ERNIE 5.0 | $0.85 | $3.40 | $4.25 | |
Claude Haiku 4.5 | 1,00 dólares EE.UU. | 5,00 dólares estadounidenses | 6,00 dólares estadounidenses | |
Qwen3-Max (23/01/2026) | $1.20 | 6,00 dólares estadounidenses | 7,20 dólares estadounidenses | |
Géminis 3 Pro (≤200K) | 2,00 dólares estadounidenses | 12,00 dólares estadounidenses | 14,00 dólares estadounidenses | |
GPT-5.2 | $1.75 | 14,00 dólares estadounidenses | $15.75 | |
El soneto de Claude 4.5 | 3,00 dólares estadounidenses | 15,00 dólares estadounidenses | 18,00 dólares estadounidenses | |
Géminis 3 Pro (>200K) | 4,00 dólares estadounidenses | 18,00 dólares estadounidenses | 22,00 dólares estadounidenses | |
Cerrar trabajo 4.6 | 5,00 dólares estadounidenses | 25,00 dólares estadounidenses | 30,00 dólares estadounidenses | |
GPT-5.2 Pro | 21,00 dólares estadounidenses | 168,00 dólares estadounidenses | 189,00 dólares estadounidenses |
Qué significa esto para los líderes técnicos empresariales y los tomadores de decisiones
Con el lanzamiento de Qwen3.5 Medium Models, la iteración rápida y los ajustes que alguna vez estuvieron reservados para laboratorios bien financiados ahora son accesibles para el desarrollo local en muchas empresas no técnicas, desvinculando efectivamente la IA sofisticada de los enormes gastos de capital.
En toda la organización, esta arquitectura transforma la forma en que se manejan y protegen los datos. La capacidad de incorporar localmente grandes repositorios de documentos o vídeos a escala horaria permite un análisis institucional profundo sin los riesgos de privacidad de las API de terceros.
Al ejecutar estos modelos especializados de “combinación de expertos” dentro de un firewall privado, las organizaciones pueden mantener un control soberano sobre sus datos mientras utilizan modos de “pensamiento” nativos y capacidades de llamada de herramientas autorizadas para crear agentes autónomos más confiables.
Los primeros usuarios de Hugging Face elogiaron específicamente la capacidad del modelo para “cerrar la brecha” en escenarios de agencia donde antes sólo los modelos cerrados más grandes podían competir.
Este cambio hacia una eficiencia arquitectónica a escala bruta garantiza que la integración de la IA siga siendo lo suficientemente consciente de los costos, segura y ágil para mantenerse al día con las necesidades operativas en evolución.
















