Alibaba abandonó Qwen3.5 a principios de esta semana, programado para coincidir con el Año Nuevo Lunar, y las cifras de los titulares por sí solas son suficientes para hacer que los compradores empresariales de IA se detengan y presten atención.

El nuevo modelo insignia de peso abierto, Qwen3.5-397B-A17B, contiene 397 mil millones de parámetros totales, pero solo activa 17 mil millones por token. Está reclamando victorias históricas contra El anterior buque insignia de Alibaba, Qwen3-Maxun modelo que la propia empresa reconoció superó el billón de parámetros.

El lanzamiento marca un momento significativo en la adquisición de IA empresarial. Para los líderes de TI que evalúan la infraestructura de IA para 2026, Qwen 3.5 presenta un tipo de argumento diferente: que el modelo que realmente puedes ejecutar, poseer y controlar ahora puede intercambiar golpes con los modelos que necesitas alquilar.

Una nueva arquitectura diseñada para ofrecer velocidad a escala

La historia de la ingeniería detrás de Qwen3.5 comienza con su ascendencia. El modelo es un sucesor directo del Qwen3-Next experimental de septiembre pasado, un modelo MoE ultraescaso que se predijo pero que en general se considera que estaba medio entrenado. Qwen3.5 toma esta dirección arquitectónica y la escala agresivamente, pasando de 128 expertos en los modelos Qwen3 MoE anteriores a 512 expertos en la nueva versión.

La implicación práctica de esto y de un mejor mecanismo de atención es una latencia de inferencia drásticamente menor. Dado que sólo 17 mil millones de estos 397 mil millones de parámetros están activos para cualquier paso hacia adelante, la huella computacional está mucho más cerca de un modelo denso de 17 B que de un modelo de 400 B, mientras que el modelo puede aprovechar toda la profundidad de su grupo de expertos para el razonamiento experto.

Estas ganancias de velocidad son sustanciales. Con longitudes de contexto de 256K, Qwen 3.5 decodifica 19 veces más rápido que Qwen3-Max y 7,2 veces más rápido que Qwen 3 modelo 235B-A22B.

Alibaba también afirma que el modelo es un 60% más barato de operar que su predecesor y ocho veces más capaz de manejar grandes cargas de trabajo simultáneas, cifras que son extremadamente importantes para cualquier equipo que preste atención a las cuentas de inferencia. También es alrededor de 1/18.º coste del Gemini 3 Pro de Google.

Otras dos decisiones arquitectónicas complementan estos beneficios:

  1. Qwen3.5 adopta predicción multitoken (un enfoque pionero en múltiples modelos propietarios) que acelera la convergencia previa al entrenamiento y aumenta el rendimiento.

  2. También hereda el sistema de atención de Qwen3-Siguiente lanzado el año pasado, diseñado específicamente para reducir la presión de la memoria en contextos muy largos.

El resultado es un modelo que puede operar cómodamente dentro de una ventana de contexto de 256K en la versión abierta y hasta 1 millón de tokens en la variante Qwen3.5-Plus alojada en Alibaba Cloud Model Studio.

Multimodal nativo, no atornillado

Durante años, Alibaba ha adoptado el enfoque estándar de la industria: construir un modelo de lenguaje y luego conectar un codificador de visión para crear una variante VL separada. Qwen3.5 abandona este patrón por completo. El modelo se entrena desde cero con texto, imágenes y vídeo simultáneamente, lo que significa que el razonamiento visual se integra en las representaciones centrales del modelo en lugar de injertarse.

Esto es importante en la práctica. Los modelos multimodales nativos tienden a superar a sus homólogos basados ​​en adaptadores en tareas que requieren un razonamiento estricto de texto a imagen: piense en analizar un diagrama técnico junto con su documentación, procesar capturas de pantalla de la interfaz de usuario para tareas de agentes o extraer datos estructurados de diseños visuales complejos. En MathVista, el modelo obtiene una puntuación de 90,3; en MMMU, 85,0. Está por detrás de Gemini 3 en varios puntos de referencia específicos de visión, pero supera a Claude Opus 4.5 en tareas multimodales y presenta cifras competitivas frente a GPT-5.2, todo ello con una fracción del recuento de parámetros.

El rendimiento de referencia de Qwen3.5 frente a modelos propietarios más grandes es el número que impulsará las conversaciones empresariales.

En las evaluaciones publicadas por Alibaba, el modelo 397B-A17B supera al Qwen3-Max (un modelo con más de un billón de parámetros) en múltiples tareas de razonamiento y codificación.

También afirma obtener resultados competitivos frente a GPT-5.2, Claude Opus 4.5 y Gemini 3 Pro en pruebas comparativas de razonamiento y codificación generales.

Cobertura de idiomas y eficiencia del tokenizador

Un detalle subestimado en la versión Qwen3.5 es su alcance multilingüe ampliado. El vocabulario del modelo ha crecido hasta 250.000 tokens, frente a los 150.000 de las generaciones anteriores de Qwen y ahora comparable a los aproximadamente 256.000 tokenizadores de Google. El soporte de idiomas se expande de 119 idiomas en Qwen 3 a 201 idiomas y dialectos.

La actualización del tokenizador tiene implicaciones de costos directos para las implementaciones globales. Los vocabularios más amplios codifican escrituras no latinas (árabe, tailandés, coreano, japonés, hindi y otros) de manera más eficiente, lo que reduce el recuento de tokens entre un 15 y un 40 por ciento, según el idioma. Para las organizaciones de TI que ejecutan IA a escala en bases de usuarios multilingües, este no es un detalle académico. Esto se traduce directamente en menores costos de inferencia y tiempos de respuesta más rápidos.

Capacidades agentes e integración de OpenClaw

Alibaba está posicionando Qwen3.5 explícitamente como un modelo de agencia, diseñado no sólo para responder a consultas, sino también para tomar acciones autónomas de varios pasos en nombre de los usuarios y los sistemas. La compañía tiene Qwen Code de código abierto, una interfaz de línea de comandos que permite a los desarrolladores delegar tareas de codificación complejas al modelo de lenguaje natural, más o menos análogo al Claude Code de Anthropic.

El lanzamiento también destaca la compatibilidad con OpenClaw, el marco de agente de código abierto que ha experimentado una mayor adopción por parte de los desarrolladores este año. Con 15.000 entornos distintos de entrenamiento de aprendizaje por refuerzo utilizados para mejorar el razonamiento del modelo y la ejecución de tareas, el equipo de Qwen ha hecho una apuesta deliberada por el entrenamiento basado en RL para mejorar el desempeño práctico de los agentes, una tendencia consistente con lo que MiniMax demostró con M2.5.

La variante alojada Qwen3.5-Plus también permite modos de inferencia adaptativos: un modo rápido para aplicaciones sensibles a la latencia, un modo de pensamiento que permite un razonamiento extendido para tareas complejas y un modo automático (adaptativo) que selecciona dinámicamente. Esta flexibilidad es importante para implementaciones empresariales donde el mismo modelo puede necesitar atender tanto interacciones con clientes en tiempo real como flujos de trabajo analíticos profundos.

Realidades de la implementación: lo que los equipos de TI realmente necesitan saber

La ejecución interna de pesos abiertos Qwen3.5 requiere hardware serio. Mientras que una versión cuantificada requiere aproximadamente 256 GB de RAM y, de manera realista, 512 GB para un espacio cómodo. Este no es un modelo para una estación de trabajo o un modesto servidor local. Es adecuado para un nodo GPU, una configuración que muchas empresas ya utilizan para cargas de trabajo de inferencia y que ahora ofrece una alternativa convincente para implementaciones dependientes de API.

Todos los modelos Qwen 3.5 de peso abierto se lanzan bajo la licencia Apache 2.0. Esta es una distinción significativa con respecto a los modelos con licencias personalizadas o restringidas: Apache 2.0 permite el uso, modificación y redistribución comercial libre de regalías y sin restricciones significativas. Para los equipos legales y de adquisiciones que evalúan modelos abiertos, esta postura limpia de licencias simplifica considerablemente la conversación.

¿Qué sigue?

Alibaba confirmó que esta es la primera versión de la familia Qwen3.5, no la versión completa. Sobre la base del estándar Qwen3, que presentaba modelos con hasta 600 millones de parámetros, la industria espera que en las próximas semanas y meses sigan modelos de destilado denso más pequeños y configuraciones MoE adicionales. El modelo Qwen3-Next 80B del pasado mes de septiembre fue ampliamente considerado como poco entrenado, lo que sugiere que una variante 3.5 a esta escala es probable que se lance en el corto plazo.

Para los tomadores de decisiones de TI, la trayectoria es clara. Alibaba ha demostrado que los modelos de apertura de fronteras ya no son un compromiso. Qwen3.5 es una opción de compra genuina para equipos que desean un razonamiento de primer nivel, capacidades multimodales nativas y una ventana de contexto de token de 1 millón, sin estar atados a una API patentada. La siguiente pregunta no es si esta familia de modelos tiene la capacidad suficiente. Se trata de si su infraestructura y su equipo están preparados para aprovecharlo.


Qwen 3.5 es disponible ahora en Hugging Face bajo el modelo ID Qwen/Qwen3.5-397B-A17B. La variante alojada Qwen3.5-Plus está disponible a través de Estudio de modelo de nube de Alibaba. Qwen Chatear en chat.qwen.ai ofrece acceso público gratuito para su evaluación.

Fuente