La era de la IA generativa comenzó para la mayoría de las personas con la Lanzamiento de ChatGPT de OpenAI a finales de 2022pero la tecnología subyacente, la arquitectura de red neuronal “Transformer” que permite a los modelos de IA evaluar la importancia de diferentes palabras en una oración (o píxeles en una imagen) de manera diferente y entrenar información en paralelo, se remonta al artículo fundamental de Google de 2017 “Atención es todo lo que necesitas“.
Sin embargo, aunque los Transformers ofrecen una calidad de modelo incomparable y han sustentado la mayoría de los principales modelos de IA generativa utilizados en la actualidad, son computacionalmente glotones. Están agobiados por la computación cuadrática y las demandas de memoria lineal que hacen que la inferencia a gran escala sea una tarea costosa y a menudo prohibitiva. De ahí el deseo de algunos investigadores de mejorarlos desarrollando una nueva arquitectura, Mamba, en 2023, que comenzó a incluirse en modelos híbridos Mamba-Transformer como Nemotron 3 Super de Nvidia.
Ahora, los mismos investigadores detrás de la arquitectura original de Mamba, incluidos los líderes Albert Gu de Carnegie Mellon y Tri Dao de Princeton, lanzó la última versión de su nueva arquitectura, Mamba-3como modelo de lenguaje bajo una licencia permisiva de código abierto Apache 2.0, poniéndolo inmediatamente a disposición de los desarrolladores, incluidas las empresas, con fines comerciales. Un artículo técnico también. fue publicado en arXiv.org.
Este modelo señala un cambio de paradigma de la eficiencia del entrenamiento a un diseño que prioriza la inferencia. Como señaló Gu en el anuncio oficial, mientras Mamba-2 se centró en romper los cuellos de botella previos al entrenamiento, Mamba-3 apunta a resolver el problema de la “GPU fría”: la realidad de que durante la decodificación, el hardware moderno a menudo permanece inactivo, esperando el movimiento de la memoria en lugar de realizar cálculos.
Perplejidad (no, la empresa no) y la nueva eficiencia del Mamba 3
Mamba, incluido Mamba 3, es un tipo de modelo de espacio de estados (SSM).
Se trata de un “motor de resumen” de alta velocidad para la IA. Si bien muchos modelos populares (como los que están detrás de ChatGPT) tienen que reexaminar cada palabra que han visto para entender lo que viene a continuación (lo que se vuelve más lento y más costoso cuanto más dura la conversación), un SSM mantiene un estado interno compacto y en constante cambio. Este estado es esencialmente una “instantánea mental” digital de todo el historial de datos.
A medida que llega nueva información, el modelo simplemente actualiza esta instantánea en lugar de volver a leer todo desde el principio. Esto permite a la IA procesar grandes cantidades de información, como bibliotecas enteras de libros o largas hebras de ADN, con una velocidad increíble y requisitos de memoria mucho menores.
Para apreciar el salto que representa Mamba-3, primero hay que entender la perplejidad, la principal métrica utilizada en la investigación para medir la calidad del modelo.
En el contexto del modelado del lenguaje, la perplejidad es una medida de cuán “sorprendido” está un modelo por los nuevos datos.
Piense en un modelo a seguir como un jugador profesional. Si un modelo tiene mucha perplejidad, no sabe exactamente dónde hacer sus apuestas; ve muchas posibles siguientes palabras como igualmente probables.
Una puntuación de perplejidad más baja indica que el modelo es más “correcto”: tiene una mejor comprensión de los patrones subyacentes del lenguaje humano. Para los creadores de IA, la perplejidad sirve como un indicador de alta fidelidad de la inteligencia.
El avance reportado en la investigación de Mamba-3 es que logra una perplejidad comparable a la de su predecesor, Mamba-2, utilizando solo la mitad del tamaño del estado. Esto significa que un modelo puede ser igualmente inteligente y al mismo tiempo funcionar con el doble de eficiencia.
Una nueva filosofía
La filosofía que guía a Mamba-3 es un cambio fundamental en nuestra forma de pensar sobre la “inteligencia” de la IA frente a la velocidad del hardware en el que se ejecuta. Mientras que la generación anterior, Mamba-2, fue diseñada para ser entrenada a velocidades récord, Mamba-3 es una arquitectura de “inferencia primero”: inferencia que se refiere a la forma en que los modelos de IA se entregan a los usuarios finales, a través de sitios como ChatGPT o Google Gemini, o mediante interfaces de programación de aplicaciones (API).
El objetivo principal de Mamba 3 es maximizar cada segundo que el chip de la computadora (GPU) está activo, asegurando que el modelo piense lo más posible sin hacer que el usuario espere una respuesta.
En el mundo de los modelos lingüísticos, cada punto de precisión se gana con esfuerzo. En una escala de 1.500 millones de parámetros, la variante “MIMO” más avanzada de Mamba-3 logró una precisión promedio del 57,6% en todos los puntos de referencia, lo que representa un salto de 2,2 puntos porcentuales sobre el estándar de la industria Transformer.
Si bien un salto de dos puntos puede parecer modesto, en realidad representa un aumento relativo de casi el 4 % en la capacidad de modelado del lenguaje en comparación con la línea base de Transformer. Aún más impresionante, como se mencionó anteriormente, Mamba-3 puede igualar la calidad predictiva de su predecesor mientras utiliza solo la mitad del “tamaño de estado” interno, brindando efectivamente el mismo nivel de inteligencia con un retraso de memoria significativamente menor.
Durante años, las alternativas eficientes a los Transformers sufrieron una “brecha lógica”: a menudo fallaban en tareas de razonamiento simples, como seguir patrones o resolver aritmética básica, porque sus matemáticas internas eran demasiado rígidas. Mamba-3 resuelve esto introduciendo estados de valores complejos.
Esta actualización matemática actúa como una brújula interna, permitiendo que el modelo represente una lógica “rotacional”. Al utilizar este enfoque “rotacional”, Mamba-3 puede resolver casi perfectamente acertijos lógicos y tareas de seguimiento de estado que sus predecesores sólo podían adivinar, equiparando finalmente el poder de razonamiento de los modelos lineales con los sistemas más avanzados.
La última pieza del rompecabezas es cómo interactúa Mamba-3 con el hardware físico. La mayoría de los modelos de IA actuales están “ligados a la memoria”, lo que significa que el chip de la computadora pasa la mayor parte del tiempo inactivo, esperando que los datos pasen de la memoria al procesador.
Mamba-3 introduce una formulación de múltiples entradas y múltiples salidas (MIMO) que cambia fundamentalmente esta dinámica. Al realizar hasta cuatro veces más operaciones matemáticas en paralelo durante cada paso, Mamba-3 utiliza este poder previamente “inactivo”. Esto permite que el modelo “piense” mucho más en cada palabra que genera, sin aumentar el tiempo real que un usuario pasa esperando una respuesta. Más sobre esto a continuación.
Tres nuevos saltos tecnológicos
El atractivo de los modelos lineales siempre ha sido sus constantes requisitos de memoria y su escala de computación lineal.
Sin embargo, como señalan los autores de Mamba 3, “no hay almuerzo gratis”. Al fijar el tamaño del estado para garantizar la eficiencia, estos modelos se ven obligados a comprimir todo el contexto histórico en una sola representación, exactamente lo opuesto al creciente caché KV de un Transformer. Mamba-3 utiliza tres palancas específicas para hacer que este estado fijo funcione más.
1. Discretización exponencial-trapezoidal
Los modelos de espacio de estados son fundamentalmente sistemas de tiempo continuo que deben “discretizarse” para tratar con secuencias discretas de datos digitales.
Las iteraciones anteriores se basaban en la discretización “exponencial-Euler”, una heurística que proporcionaba sólo una aproximación de primer orden del sistema.
Mamba-3 presenta un regla trapezoidal generalizadaproporcionando una aproximación precisa de segundo orden. Esto no es sólo un refinamiento matemático; induce una “convolución implícita” dentro de la recurrencia central.
Al combinar esto con términos explícitos de sesgo B y C, los investigadores pudieron eliminar la breve convolución causal que ha sido un elemento básico de las arquitecturas recurrentes durante años.
2. Los MSE de valor complejo y el “truco RoPE”
Una de las críticas más persistentes a los modelos lineales ha sido su incapacidad para resolver tareas simples de seguimiento de estado, como determinar la paridad de una secuencia de bits.
Este defecto surge de la restricción de la matriz de transición a números reales, lo que impide que el modelo represente dinámicas “rotacionales”. Mamba-3 supera esto al considerar que el SSM subyacente tiene un valor complejo.
Usando lo que el equipo llama “truco de cuerda“, demuestran que una actualización de estado de valor complejo es matemáticamente equivalente a una incrustación dependiente de datos rotativos (RoPE) aplicada a las proyecciones de entrada y salida.
Esto permite a Mamba-3 resolver tareas de razonamiento sintético que eran imposibles para Mamba-2.
3. MIMO: Intensidad aritmética creciente
El salto más significativo en la eficiencia de la inferencia proviene de la transición de Entrada única, Salida única (SISO) a Múltiples entradas, múltiples salidas (MIMO) SSM.
En un SSM estándar, la actualización de estado es una operación de producto externo estrechamente vinculada a la memoria. Al cambiar a una actualización de estado basada en la multiplicación de matrices, Mamba-3 aumenta la “intensidad aritmética” del modelo: la relación entre FLOP y tráfico de memoria.
Esto permite que el modelo realice más cálculos durante la fase de decodificación vinculada a la memoria. Básicamente, el Mamba-3 utiliza los núcleos informáticos “inactivos” de la GPU para aumentar la potencia del modelo “gratis”, manteniendo la misma velocidad de decodificación que sus predecesores más simples.
Lo que significa Mamba 3 para las empresas y los desarrolladores de IA
Para las empresas, Mamba-3 representa un cambio estratégico en el costo total de propiedad (TCO) para las implementaciones de IA.
Costo x rendimiento: Mediante el desempeño de parámetros coincidentes, Mamba-3 (MIMO) iguala la perplejidad de Mamba-2 mientras usa la mitad del tamaño del estado. Para la implementación empresarial, esto efectivamente duplica el rendimiento de inferencia para el mismo espacio de hardware.
Flujos de trabajo del agente: A medida que las organizaciones avanzan hacia flujos de trabajo de agentes paralelos (como codificación automatizada o agentes de servicio al cliente en tiempo real), la demanda de generación de baja latencia aumenta exponencialmente. Mamba-3 fue diseñado específicamente para evitar que el hardware de la GPU se quede “en frío” durante estas tareas.
La ventaja híbrida: Los investigadores predicen que el futuro de la IA empresarial radica en modelos híbridos. Al entrelazar Mamba-3 con la autoatención, las organizaciones pueden combinar la “memoria” eficiente de los SSM con el almacenamiento preciso de la “base de datos” de los Transformers.
Disponibilidad, licencia y uso
Mamba-3 no es sólo un trabajo de investigación teórica; es una versión de código abierto completamente realizada disponible para uso inmediato con código de plantilla publicado en GitHub.
El proyecto se publica bajo la licencia Apache-2.0. Se trata de una licencia permisiva y favorable a las empresas que permite el uso, la modificación y la distribución comercial de forma gratuita sin necesidad de revelar el código fuente propietario.
Esta versión es buena para los desarrolladores que crean aplicaciones contextuales, agentes de razonamiento en tiempo real o aquellos que buscan reducir los costos de GPU en entornos de producción de gran volumen.
Liderando la revolución de los modelos espaciales estatales (SSM)
El lanzamiento fue recibido con entusiasmo en las redes sociales, particularmente en lo que respecta a la naturaleza “dirigida por estudiantes” del proyecto. Gu, cuya biografía X/Twitter lo describe como “líder de la revolución del SSM”, dio todo el crédito a los líderes estudiantiles, incluidos Akash Lahoti y Kevin Y.Li
.gu hilo destacó la satisfacción del equipo con el diseño:
“¡Estamos muy contentos con el diseño final del modelo! Los tres cambios metodológicos principales están inspirados (en mi opinión) en algunos métodos y matemáticas elegantes”.
A medida que los flujos de trabajo de los agentes impulsan la demanda de inferencia “por las nubes”, la llegada de Mamba-3 sugiere que el futuro de la IA puede no consistir sólo en tener el modelo más grande, sino también en tener el más eficiente.
Mamba-3 realineó con éxito SSM con las realidades del hardware moderno, demostrando que incluso en la era del Transformer, los principios de la teoría de control clásica todavía tienen un papel vital que desempeñar.















