A pesar de agitación política en el sector de la IA de EE. UU.En China, los avances en IA continúan a buen ritmo y sin problemas.

Hoy temprano, el equipo Qwen de investigadores de IA del gigante del comercio electrónico Alibaba, centrado principalmente en desarrollar y lanzar al mundo una familia cada vez mayor de lenguaje Qwen de código abierto potente y capaz y modelos de IA multimodales, reveló su lote más nuevo. la serie de modelos pequeños Qwen3.5que consta de:

  • Qwen3.5-0.8B y 2B: Dos modelos, ambos optimizados para un rendimiento “pequeño” y “rápido”, destinados a la creación de prototipos y la implementación en dispositivos de alta gama donde la duración de la batería es fundamental.

  • Qwen3.5-4B: Una base multimodal sólida para agentes livianos, con soporte nativo para una ventana de contexto de 262,144 tokens.

  • Qwen3.5-9B un modelo de razonamiento compacto que supera al 13,5 veces más grande Código abierto del rival estadounidense OpenAI gpt-oss-120B sobre los principales puntos de referencia de terceros, incluido el conocimiento multilingüe y el razonamiento a nivel de posgrado

Para poner esto en perspectiva, estos modelos son del orden de los modelos de uso general más pequeños enviados recientemente por cualquier laboratorio en todo el mundo, más comparables a la rama del MIT. Serie LiquidAI LFM2que también tienen varios cientos de millones o miles de millones de parámetros, que los billones de parámetros estimados (configuraciones de modelo) supuestamente utilizados para los modelos insignia de las series OpenAI, Anthropic y Gemini de Google.

Los pesos de los modelos están disponibles a nivel mundial bajo licencias Apache 2.0 (perfectos para uso empresarial y comercial, incluida la personalización según sea necesario) en abrazando la cara y ModeloScope.

La tecnología: eficiencia híbrida y multimodalidad nativa

La base técnica de la pequeña serie Qwen3.5 es diferente de las arquitecturas Transformer estándar. Alibaba ha avanzado hacia una arquitectura híbrida eficiente que combina redes Gated Delta (una forma de atención lineal) con una escasa combinación de expertos (MoE).

Este enfoque híbrido aborda el “muro de la memoria” que normalmente limita los modelos pequeños; Al utilizar redes Delta cerradas, los modelos logran un mayor rendimiento y una latencia significativamente menor durante la inferencia.

Además, estos modelos son nativamente multimodales. A diferencia de las generaciones anteriores que “integraron” un codificador de visión en un modelo de texto, Qwen3.5 se entrenó mediante la fusión inicial de tokens multimodales. Esto permite que los modelos 4B y 9B muestren un nivel de comprensión visual (como leer elementos de la interfaz de usuario o contar objetos en un vídeo) que anteriormente requería modelos diez veces más grandes.

Benchmarking de series “pequeñas”: rendimiento que desafía la escala

Los datos de referencia publicados recientemente ilustran cuán agresivamente estos modelos compactos compiten (y a menudo superan) estándares industriales mucho más amplios. Las variantes Qwen3.5-9B y Qwen3.5-4B demuestran un salto intergeneracional en eficiencia, particularmente en tareas multimodales y de razonamiento.

Dominio multimodal: En la prueba de razonamiento visual MMMU-Pro, Qwen3.5-9B logró una puntuación de 70,1, superando a Gemini 2.5 Flash-Lite (59,7) e incluso al Qwen3-VL-30B-A3B especializado (63,0).

Razonamiento a nivel de posgrado: En el benchmark GPQA Diamond, el modelo 9B logró una puntuación de 81,7, superando al gpt-oss-120b (80,1), un modelo con más de diez veces su número de parámetros.

Comprensión del vídeo: La serie muestra el desempeño de élite en razonamiento en video. En la prueba de referencia Video-MME (con subtítulos), Qwen3.5-9B obtuvo una puntuación de 84,5 y 4B obtuvo una puntuación de 83,5, una ventaja significativa sobre Gemini 2.5 Flash-Lite (74,6).

Habilidad matemática: En la evaluación HMMT de febrero de 2025 (torneo de matemáticas Harvard-MIT), el modelo 9B obtuvo una puntuación de 83,2, mientras que la variante 4B obtuvo una puntuación de 74,0, lo que demuestra que el razonamiento STEM de alto nivel ya no requiere grupos computacionales masivos.

Conocimientos documentales y multilingües: La variante 9B lidera el grupo en reconocimiento de documentos en OmniDocBench v1.5 con una puntuación de 87,7. Mientras tanto, mantiene una presencia multilingüe de primer nivel en MMMLU con una puntuación de 81,2, superando a gpt-oss-120b (78,2).

Reacciones de la comunidad: “más inteligencia, menos informática”

Tras el lanzamiento la semana pasada de un código abierto ya bastante pequeño y potente Qwen3.5-Medio Capaz de ejecutarse en una sola GPU, el anuncio de la serie Qwen3.5-Small Models y su tamaño y requisitos de procesamiento aún más pequeños despertaron un interés inmediato entre los desarrolladores centrados en la IA “local primero”.

“Más inteligencia, menos computación” resonó entre los usuarios que buscaban alternativas a los modelos basados ​​en la nube.

Educador en IA y tecnología Paulo Couvert de Blueshell AI capturó la conmoción de la industria ante este salto de eficiencia.

“¡¿Cómo es esto posible?!” Cargo de cobertura escribió en X. “Qwen ha lanzado 4 nuevos modelos y la versión 4B es casi tan capaz como el 80B A3B anterior. ¡Y el 9B es tan bueno como el GPT OSS 120b y es 13 veces más pequeño!”

El análisis de Couvert destaca las implicaciones prácticas de estos beneficios arquitectónicos:

  • “Pueden ejecutarse en cualquier portátil”

  • “0.8B y 2B para tu teléfono”

  • “Sin conexión y de código abierto”

Como desarrollador Karan Kendre de Kargul Studio dijo: “estos modelos [can run] localmente en mi MacBook Air M1 de forma gratuita.”

Esta sensación de accesibilidad “increíble” resuena en todo el ecosistema de desarrolladores. Un usuario señaló que un modelo 4B que sirve como una “base multimodal sólida” es un “cambio de juego para los desarrolladores móviles” que necesitan capacidades de lectura de pantalla sin una alta sobrecarga de CPU.

De hecho, el desarrollador Hugging Face Xenova observó que la nueva serie Qwen3.5 Small Model puede incluso ejecutarse directamente en el navegador web del usuario y realizar operaciones sofisticadas y que antes requieren un uso intensivo de computación, como el análisis de vídeo.

Los investigadores también elogiaron el lanzamiento de Plantillas básicas junto con versiones de Instructseñalando que proporciona un apoyo esencial para la “innovación industrial del mundo real”.

El lanzamiento de modelos básicos es particularmente valorado por los equipos empresariales y de investigación porque proporciona una “pizarra en blanco” que no ha sido influenciada por un conjunto específico de datos RLHF (Aprendizaje reforzado a partir de retroalimentación humana) o SFT (Ajuste fino supervisado), que a menudo pueden conducir a “declinaciones” o estilos de conversación específicos que son difíciles de deshacer.

Ahora, con las plantillas Base, aquellos interesados ​​en personalizar la plantilla para adaptarla a tareas y propósitos específicos tienen un punto de partida más fácil, ya que ahora pueden aplicar su propio ajuste de instrucción y posterior a la capacitación sin tener que recurrir a Alibaba.

Licencias: una victoria para el ecosistema abierto

Alibaba ha publicado los pesos y archivos de configuración para la serie Qwen3.5 bajo la licencia Apache 2.0. Esta licencia permisiva permite el uso, la modificación y la distribución comerciales libres de regalías, lo que elimina la “dependencia del proveedor” asociada con las API propietarias.

  • Uso comercial: Los desarrolladores pueden integrar modelos en productos comerciales libres de regalías.

  • Modificación: Los equipos pueden realizar ajustes (SFT) o aplicar RLHF para crear versiones especializadas.

  • Distribución: Los modelos se pueden volver a implementar en aplicaciones de IA locales como Ollama.

Contextualizando las noticias: por qué las pequeñas cosas importan tanto ahora

El lanzamiento de Qwen3.5 Small Series llega en un momento de “realineamiento agente”. Hemos ido más allá de los simples chatbots; El objetivo ahora es la autonomía. Un agente autónomo debe “pensar” (razonar), “ver” (multimodalidad) y “actuar” (uso de herramientas). Si bien hacer esto con modelos de billones de parámetros es prohibitivamente costoso, un Qwen3.5-9B local puede ejecutar estos bucles a una fracción del costo.

Al escalar el aprendizaje por refuerzo (RL) en entornos de millones de agentes, Alibaba ha dotado a estos pequeños modelos de un “juicio alineado con los humanos”, lo que les permite abordar objetivos de varios pasos, como organizar un escritorio o aplicar ingeniería inversa a imágenes de juegos en código. Ya sea un modelo 0.8B que se ejecuta en un teléfono inteligente o un modelo 9B que alimenta un terminal de codificación, la serie Qwen3.5 está democratizando efectivamente la “era agente”.

El cambio de la serie Qwen3.5 de “chatbits” a “agentes multimodales nativos” transforma la forma en que las empresas pueden distribuir inteligencia. Al trasladar el razonamiento sofisticado al “borde” (dispositivos individuales y servidores locales), las organizaciones pueden automatizar tareas que antes requerían costosas API en la nube o procesamiento de alta latencia.

Aplicaciones y consideraciones estratégicas de negocio

Los modelos 0.8B a 9B han sido rediseñados para ser eficientes, utilizando una arquitectura híbrida que activa solo las partes necesarias de la red para cada tarea.

  • Automatización visual del flujo de trabajo: Utilizando una “base a nivel de píxel”, estos modelos pueden navegar por interfaces de usuario móviles o de escritorio, completar formularios y organizar archivos según instrucciones en lenguaje natural.

  • Análisis de documentos complejos: Con puntuaciones superiores al 90 % en los puntos de referencia de comprensión de documentos, pueden reemplazar canales de análisis de diseño y OCR separados para extraer datos estructurados de diversos formularios y gráficos.

  • Codificación y refactorización autónoma: Las empresas pueden introducir repositorios completos (hasta 400.000 líneas de código) en la ventana contextual de 1M para refactorizaciones listas para producción o depuración automatizada.

  • Análisis de borde en tiempo real: Los modelos 0.8B y 2B están diseñados para dispositivos móviles y permiten resúmenes de video fuera de línea (hasta 60 segundos a 8 FPS) y razonamiento espacial sin afectar la duración de la batería.

La siguiente tabla describe qué funciones comerciales se beneficiarán más con la implementación de modelos pequeños a nivel local.

Función

Beneficio primario

Caso de uso principal

Ingeniería de software

Inteligencia de código local

Refactorización en todo el repositorio y codificación de agentes basada en terminales.

Operaciones y TI

Automatización segura

Automatizar configuraciones de sistemas de varios pasos y tareas de administración de archivos localmente.

Experiencia de producto y usuario

Interacción de borde

Integración de razonamiento multimodal nativo directamente en aplicaciones móviles/de escritorio.

Datos y análisis

Extracción eficiente

OCR de alta fidelidad y extracción de datos estructurados a partir de informes visuales complejos.

Si bien estos modelos son muy capaces, su pequeña escala y su naturaleza de “agente” introducen “señales” operativas específicas que los equipos deben monitorear.

  • La cascada de alucinaciones: En los flujos de trabajo de “agentes” de varios pasos, un pequeño error en un paso inicial puede provocar una “cascada” de fallas en las que el agente sigue un plan incorrecto o sin sentido.

  • Depuración frente a codificación Greenfield: Si bien estos modelos se destacan en la escritura de código nuevo “greenfield”, pueden tener dificultades para depurar o modificar sistemas heredados complejos existentes.

  • Demandas de memoria y VRAM: Incluso los modelos “pequeños” (como el 9B) requieren una VRAM significativa para una inferencia de alto rendimiento; la “huella de memoria” sigue siendo alta porque el recuento total de parámetros todavía ocupa espacio en la GPU.

  • Residencia regulatoria y de datos: El uso de plantillas de un proveedor con sede en China puede generar problemas de residencia de datos en ciertas jurisdicciones, aunque la versión abierta de Apache 2.0 permite el alojamiento en nubes locales “soberanas”.

Las empresas deben priorizar tareas “verificables”, como codificación, matemáticas o seguir instrucciones, donde el resultado se puede verificar automáticamente con reglas predefinidas para evitar “piratería de recompensas” o fallas silenciosas.

Fuente