Investigadores de MiroMind AI y varias universidades chinas liberados OpenMMReasonerun nuevo marco de formación que mejora las capacidades de los modelos de lenguaje en el razonamiento multimodal.
El marco utiliza un proceso de dos pasos. Primero, refina un modelo base con un conjunto de datos seleccionado en una etapa de ajuste fino supervisado (SFT). A continuación, una etapa de aprendizaje por refuerzo (RL) guía al modelo para razonar de manera más efectiva en tareas que involucran datos textuales y visuales.
Los experimentos muestran que los modelos entrenados con OpenMMReasoner superan a otros modelos líderes de razonamiento visual, a menudo mientras se entrenan en un conjunto de datos más pequeño y de mayor calidad. El marco y todos sus activos, incluido un modelo 7B entrenado, son completamente de código abierto, lo que proporciona una base confiable para crear aplicaciones que requieren trazabilidad y solidez.
Según Kaichen Zhang, coautor de un artículo de investigación que describe el nuevo método, OpenMMReasoner ofrece importantes beneficios a las empresas que miran más allá de los grandes sistemas cerrados. “Un modelo de pensamiento de código abierto más pequeño tiene ventajas prácticas: las empresas pueden implementarlo localmente, reducir la latencia, reducir los costos simbólicos asociados con largas cadenas de pensamiento, mantener el control total sobre sus datos y [it is] se puede modificar para adaptarlo a sus tareas posteriores específicas”, dijo a VentureBeat.
El desafío del razonamiento multimodal transparente
Los avances recientes en el aprendizaje por refuerzo con recompensas verificables (RLVR) han mejorado significativamente las capacidades de razonamiento de los modelos de lenguaje grandes (LLM). RLVR entrena a los LLM para generar cadena de pensamiento (CoT) (que imitan los procesos de razonamiento utilizados por los humanos) antes de generar la respuesta final. Esto mejora la capacidad del modelo para resolver tareas de razonamiento complejas, como matemáticas y codificación.
Motivados por este éxito, los investigadores han aplicado métodos similares basados en RL para grandes modelos multimodales (LMM), lo que demuestra que los beneficios pueden ir más allá del texto para mejorar la comprensión visual y la resolución de problemas en diferentes modalidades.
Sin embargo, la falta de transparencia en el proceso de formación ha sido una barrera importante. Muchos estudios sobre razonamiento multimodal no proporcionan información detallada sobre sus procesos de formación y curación de datos, lo que dificulta reproducir sus resultados o comprender qué hace que estos modelos funcionen.
“Esta falta de apertura restringe la reproducibilidad y oscurece una comprensión más profunda de cómo se construyen realmente los LMM con capacidad de razonamiento y cómo evoluciona su dinámica de entrenamiento”, señalan los investigadores.
La receta de OpenMMReasoner
OpenMMReasoner aborda esta brecha con una receta de capacitación totalmente transparente y escalable basada en LMM de código abierto. Los investigadores descubrieron que era fundamental seleccionar conjuntos de datos de alta calidad, ampliando la diversidad de datos. Si bien utilizar diversas fuentes de datos es importante, aumentar la diversidad de respuestas correctas a una misma pregunta fue un eje clave de mejora.
La primera etapa de la receta es un proceso de ajuste fino supervisado (SFT) de tres pasos. Todo comienza con la fuente de datos, donde el equipo recopiló aproximadamente 103.000 pares de preguntas y respuestas sin procesar de conjuntos de datos públicos, que cubren preguntas y respuestas visuales generales y tareas de razonamiento. Luego agregaron un dato. etapa de destilaciónusando un modelo poderoso (Qwen3-VL-235B-Instrucción) para generar nuevas trazas de razonamiento de alta calidad para preguntas seleccionadas. (Los datos luego se utilizarán para entrenar un modelo más pequeño).
Para aumentar la diversidad de respuestas, el equipo generó múltiples rastros de razonamiento verificados para cada pregunta. Esto amplió el conjunto de datos a 583.000 muestras. Finalmente, implementaron una fase de “combinación de dominios”, agregando datos de dominios de razonamiento matemático para generalizar aún más las capacidades del modelo, lo que dio como resultado un conjunto de datos SFT final de 874.000 ejemplos.
La segunda etapa es una receta de RL que utiliza un conjunto de datos más pequeño de 74.000 muestras, seleccionadas de dominios como ciencias, matemáticas y acertijos. El modelo se entrena con una función de recompensa compuesta que considera tanto la exactitud de la respuesta final como la coherencia del formato de salida. Para mejorar la eficiencia, el proceso incluye una penalización por “pensar demasiado”, lo que disuade al modelo de generar respuestas excesivamente largas (un problema con muchos modelos de razonamiento entrenados a través de RL, que aprenden erróneamente a generar secuencias de razonamiento excesivamente largas, lo que resulta en costos excesivos y respuestas más lentas).
Esta receta puede proporcionar una plantilla para que las empresas entrenen sus propios modelos. “Para las empresas con datos limitados de dominios específicos, una estrategia viable es aumentar primero la diversidad de respuestas para su conjunto de datos existente y luego utilizar la combinación de dominios para integrar estos datos de dominio en una receta de razonamiento general como la nuestra”, explicó Zhang. “Esto permite que el modelo adquiera sólidas capacidades de razonamiento de propósito general mientras se adapta a tareas específicas de la industria sin necesidad de millones de muestras”.
Un modelo de razonamiento más eficiente y capaz
Según Zhang, el proceso paso a paso cambia fundamentalmente la confiabilidad de los resultados del modelo. “Los modelos tradicionales a menudo ‘saltan’ directamente a una respuesta, lo que significa que sólo exploran una parte estrecha del espacio de razonamiento”, dijo. “Por el contrario, un enfoque de razonamiento primero obliga al modelo a examinar explícitamente varios pasos intermedios… [allowing it] recorrer caminos mucho más profundos y llegar a respuestas con mucha más coherencia interna.”
Los investigadores utilizaron la receta OpenMMReasoner para generar datos para ajustar el modelo de lenguaje de visión de código abierto Qwen2.5-VL-7B-Instruct. El resultado es un LMM altamente capaz que supera consistentemente a los métodos más modernos como Abrir vista razonadora (OVR), en una amplia gama de puntos de referencia de razonamiento multimodal. La etapa SFT por sí sola crea un modelo de referencia sólido que logra un rendimiento y una eficiencia de datos superiores en comparación con otros enfoques SFT, a pesar de utilizar un conjunto de datos de entrenamiento significativamente más pequeño.
La fase posterior de RL mejora y estabiliza aún más estas habilidades, lo que lleva a un rendimiento más consistente y mejorado. Después de RL, el modelo final logra resultados de última generación en varios puntos de referencia, incluidos WeMath, MathVerse y MathVista.
Uno de los hallazgos clave fue que a medida que el modelo mejoró en el razonamiento multimodal, también mostró una “emergencia gradual de comportamientos de razonamiento textual, lo que sugiere una transferencia de competencia de razonamiento de dominios multimodales a dominios puramente lingüísticos”, señalan los investigadores. Esto indica que las habilidades aprendidas en una modalidad pueden fortalecer el desempeño en otra.
“Nuestros resultados muestran que fortalecer el razonamiento multimodal puede incluso mejorar las habilidades matemáticas basadas sólo en texto, evidencia de que las habilidades lógicas básicas pueden transferirse entre modalidades”, dijo Zhang. “De cara al futuro, esperamos que estos métodos se extiendan al vídeo y al audio”.
Los investigadores también descubrieron que la eficiencia de los tokens es crucial. Si bien permitir que un modelo genere pasos de razonamiento más largos puede mejorar el rendimiento, demasiados tokens reducen la eficiencia. Sus resultados muestran que establecer un “presupuesto de razonamiento” más bajo puede lograr una precisión comparable o incluso mejor, una consideración importante para implementar aplicaciones empresariales rentables.
Poner código abierto todos los componentes de su flujo de trabajo, los investigadores proporcionan una vista reproducible de todo el proceso. Para los equipos empresariales, esta transparencia es invaluable. “Para los líderes empresariales preocupados por la dependencia de los proveedores, los sesgos ocultos o las fuentes de datos opacas, este nivel de transparencia es esencial”, dijo Zhang. “Permite a los equipos validar datos, personalizar el proceso para nuevos dominios y mantener una independencia a largo plazo de cualquier proveedor”.















