Las empresas que han estado haciendo malabarismos con modelos separados para razonamiento, tareas multimodales y codificación de agentes pueden simplificar su pila: el nuevo Small 4 de Mistral reúne los tres en un único modelo de código abierto, con niveles de razonamiento ajustables bajo el capó.
Small 4 entra en un campo abarrotado de modelos pequeños, incluidos Qwen y Claude Haiku – que compiten en costos de inferencia y desempeño de referencia. La propuesta de Mistral: resultados más cortos que se traducen en menor latencia y tokens más baratos.
Actualizaciones del pequeño Mistral 4 Mistral Small 3.2, lanzado en junio de 2025, y está disponible bajo una licencia Apache 2.0. “Con Small 4, los usuarios ya no tienen que elegir entre un modelo de instrucción rápida, un potente motor de razonamiento o un asistente multimodal: un modelo ahora ofrece los tres, con un esfuerzo de razonamiento configurable y la mejor eficiencia de su clase”, dijo Mistral en una publicación de blog.
La compañía dijo que a pesar de su tamaño más pequeño (el Mistral Small 4 tiene 119 mil millones de parámetros totales con solo 6 mil millones de parámetros activos por token), el modelo combina las capacidades de todos los modelos Mistral. Tiene las capacidades de razonamiento de Magistral, la comprensión multimodal de Pixtral y el rendimiento de codificación agentiva de Devstral. También tiene una ventana de contexto de 256K que, según la compañía, funciona bien para conversaciones y análisis largos.
Rob May, cofundador y director ejecutivo del mercado de modelos de lenguajes pequeños Neurometric, dijo a VentureBeat que Mistral Small 4 se destaca por su flexibilidad arquitectónica. Sin embargo, se suma a un número creciente de modelos más pequeños que, según él, corren el riesgo de añadir una mayor fragmentación al mercado.
“Desde un punto de vista técnico, sí, puede ser competitivo con otros modelos”, afirmó May. “El mayor problema es que necesita superar la confusión del mercado. Mistral necesita llamar la atención para tener la oportunidad de ser parte de este conjunto de pruebas primero. Sólo entonces podrán mostrar las capacidades técnicas del modelo”.
Razonamiento bajo demanda
Los modelos pequeños todavía ofrecen buenas opciones para creadores de negocios que desean la misma experiencia de LLM a un costo menor.
El modelo está construido sobre una arquitectura mixta especializada, al igual que otros modelos Mistral. Tiene 128 expertos con cuatro activos en cada token, lo que, según Mistral, permite una ampliación y especialización eficientes.
Esto permite que el Mistral Small 4 responda más rápidamente, incluso a salidas que requieren más pensamiento. También puede procesar y razonar sobre texto e imágenes, lo que permite a los usuarios analizar documentos y gráficos.
Mistral dijo que el modelo presenta un nuevo parámetro llamado razonamiento_effort, que permitiría a los usuarios “ajustar dinámicamente el comportamiento del modelo”. Según Mistral, las empresas podrían configurar Small 4 para proporcionar respuestas rápidas y ligeras en el mismo estilo que Mistral Small 3.2, o hacerlo más detallado al estilo de Magistral, proporcionando razonamiento paso a paso para tareas complejas.
Mistral dijo que el Small 4 funciona con menos chips que modelos comparables, con una configuración recomendada de cuatro Nvidia HGX H100 o H200, o dos Nvidia DGX B200.
“La entrega de modelos avanzados de IA de código abierto requiere una optimización exhaustiva. A través de una estrecha colaboración con Nvidia, se ha optimizado la inferencia para vLLM y SGLang de código abierto, lo que garantiza un servicio eficiente y de alto rendimiento en todos los escenarios de implementación”, dijo Mistral.
Actuaciones de referencia
Según los puntos de referencia de Mistral, el Small 4 tiene un rendimiento cercano al nivel de Mistral Medium 3.1 y Mistral Large 3, especialmente en MMLU Pro.
Mistral dijo que el rendimiento de seguimiento de instrucciones hace que el Small 4 sea adecuado para tareas comerciales de gran volumen, como la comprensión de documentos.
Aunque es competitivo con otros modelos pequeños de otras empresas, Small 4 todavía tiene un rendimiento inferior a otros modelos populares de código abierto, especialmente en tareas que requieren mucha reflexión. Qwen 3.5 122B y Qwen 3-next 80B superan a Small 4 en LiveCodeBench, al igual que Claude Haiku en modo de instrucción.
Mistral Small 4 pudo vencer al GPT-OSS 120B de OpenAI en LCR.
Mistral sostiene que Small 4 logra estos puntajes con “resultados significativamente más cortos” que se traducen en costos de inferencia y latencia más bajos que los otros modelos. Específicamente en el modo de instrucción, Small 4 produce los resultados más cortos de todos los modelos probados: 2,1 000 caracteres frente a 14,2 000 de Claude Haiku y 23,6 000 de GPT-OSS 120B. En el modo de razonamiento, las salidas son mucho más largas (18,7 K), lo que se espera para este caso de uso.
May dijo que si bien la elección del modelo depende de los objetivos de la organización, la latencia es uno de los tres pilares que deben priorizar. “Depende de sus objetivos y de para qué está optimizando su arquitectura. Las empresas deben priorizar estos tres pilares: confiabilidad y resultados estructurados, relación latencia/inteligencia, ajuste y privacidad”, dijo May.

















