La empresa española de inteligencia artificial Multiverse Computing lanzó HyperNova 60B 2602, una versión comprimida de gpt-oss-120B de OpenAI, y la publicó de forma gratuita en abrazando la cara.
La nueva versión reduce las necesidades de memoria del modelo original de 61 GB a 32 GB, y Multiverse afirma que mantiene un rendimiento de llamadas de herramientas casi normal a pesar de la reducción del tamaño del 50 %.
En teoría, esto significa que un modelo que antes requería una infraestructura pesada puede funcionar con mucho menos hardware. Para los desarrolladores con presupuestos más ajustados o limitaciones energéticas, esta es una ventaja potencialmente enorme.
Tecnología CompactifAI
Multiverse afirma obtener ganancias en los puntos de referencia centrados en agentes en comparación con su versión comprimida anterior. Dice que HyperNova 60B 2602 ofrece una mejora 5 veces mayor en Tau2-Bench y 2 veces mayor en Terminal Bench Hard.
Estas pruebas miden el uso de herramientas de codificación y flujos de trabajo, en lugar de simples respuestas de texto.
La tecnología CompactifAI de la empresa reestructura las matrices de peso de los transformadores utilizando redes tensoriales de inspiración cuántica.
Multiverse cree que la compresión efectiva ofrece una alternativa a simplemente construir modelos cada vez más grandes, y lo vincula con las discusiones europeas en curso sobre la IA soberana, los límites de la infraestructura y el uso de energía; así que, para obtener más información, hablé con la compañía sobre su tecnología de compresión.
- ¿Cómo se puede comprimir un LLM?
Multiverse Computing comprime grandes modelos de lenguaje utilizando su tecnología patentada CompactifAI, basada en redes tensoriales de inspiración cuántica.
En lugar de simplemente eliminar parámetros, CompactifAI reestructura las matrices de peso internas de los modelos de transformadores en representaciones de redes tensoriales altamente eficientes. Esta reformulación matemática captura las correlaciones entre parámetros y elimina la redundancia estructural.
El proceso se aplica después del entrenamiento, lo que significa que no es necesario volver a entrenar el modelo original y no se requiere acceso a los datos de entrenamiento originales.
Con este enfoque, CompactifAI puede reducir el uso de memoria hasta aproximadamente un 93 % y reducir significativamente el recuento de parámetros mientras mantiene un sólido rendimiento en todas las tareas.
Los modelos comprimidos resultantes son más pequeños, más rápidos, más eficientes energéticamente y más fáciles de implementar en entornos de nube, locales y de borde.
- ¿Puedes aplicarlo a todos los LLM?
Funciona en modelos de lenguaje grande basados en transformadores, incluidos modelos densos, siempre que esté disponible el acceso a los pesos del modelo.
La tecnología es independiente de la arquitectura dentro de la familia de transformadores y no requiere cambios en el comportamiento externo del modelo ni en las API.
La eficacia de la compresión depende del nivel de redundancia del modelo. Los modelos grandes y sobreparametrizados suelen ofrecer el mayor potencial de compresión.
El principal desafío técnico es preservar la precisión del modelo y al mismo tiempo lograr altas relaciones de compresión. Esto se resuelve controlando cuidadosamente los parámetros de descomposición del tensor para equilibrar la reducción de tamaño y la estabilidad del rendimiento.
Otro desafío es garantizar que los modelos comprimidos mantengan su solidez en diferentes tareas, incluido el razonamiento, el rendimiento multilingüe y los casos de uso de dominios específicos.
Por último, los entornos de implementación varían ampliamente. La compresión debe optimizarse para diferentes objetivos de hardware, requisitos de latencia y restricciones operativas.
- ¿Cuál podría ser una buena analogía?
Reescribiendo el diseño, sin quitar ladrillos: CompactifAI no se limita a eliminar partes de un modelo. En cambio, reescribe el modelo matemático para que la misma estructura se represente de manera más eficiente.
Es como rediseñar la estructura interna de un edificio para que utilice mucho menos material, preservando la resistencia y la funcionalidad.
Otra analogía es reorganizar un archivo enorme en un sistema altamente estructurado que elimina la duplicación. El conocimiento permanece intacto, pero se codifica de manera mucho más eficiente.
- ¿Cómo se determina la pérdida de precisión?
La pérdida de precisión se determina comparando el modelo comprimido con el original en las mismas tareas y puntuando métricas y luego midiendo el cambio.
En la práctica, esto incluye evaluaciones de llamadas de herramientas. Reducir la pérdida de capacidad aquí permite flujos de trabajo de agentes y aplicaciones de codificación más avanzados.
- Que otras empresas (quizás rivales) estén trabajando en la misma técnica
La técnica de compresión de Multiverse Computing es completamente única y se basa en una investigación sobre redes tensoriales de inspiración cuántica llevada a cabo por el cofundador y director ejecutivo Roman Orus.
Si bien existen otras técnicas disponibles para comprimir modelos de IA, conllevan la desventaja de un grado mucho mayor de pérdida de precisión.
- Dado el hecho de que los LLM evolucionan orgánicamente con el tiempo, ¿cuál podría ser el futuro de su compresión (¿quizás implementación de hardware?) o algo más.
Esta técnica de compresión también se puede aplicar a los próximos LLM, lo que significa que en el futuro, dispositivos como automóviles, teléfonos, computadoras portátiles, etc. podrán ejecutar modelos de IA pequeños o nano preinstalados en su hardware.
- ¿Es independiente del hardware? ¿Funciona mejor con algún hardware (ASIC) que con otros?
Sí, es independiente del hardware a nivel de modelo: CompactifAI comprime los pesos del modelo después del entrenamiento, por lo que el modelo resultante se puede implementar en la nube, en las instalaciones y en el borde sin cambiar la interfaz externa del modelo.
Las aceleraciones de inferencia dependen de lo que te limitaba antes: si estuvieras limitado por la memoria, un modelo más pequeño generalmente funcionaría significativamente más rápido y más barato con el mismo hardware.
No requiere un ASIC, pero los aceleradores GPU/AI suelen ofrecer el mayor rendimiento para la inferencia de transformadores, ya que el modelo cabe cómodamente en la memoria.
- ¿De qué depende la compresión?
CompactifAI se basa en la redundancia en matrices de peso de transformadores entrenadas: los modelos grandes a menudo están sobreparametrizados, por lo que los mismos comportamientos se pueden representar con menos parámetros efectivos.
En lugar de una compresión genérica de “estilo zip”, utiliza la factorización basada en modelos (redes tensoriales de inspiración cuántica) para reescribir matrices grandes en una forma estructurada más pequeña y al mismo tiempo mitiga la compensación de precisión.
- ¿Qué impide que otras personas copien sus técnicas/procesos? Análogo a las diversas técnicas de compresión disponibles (por ejemplo, zip, rar, 7z, etc.)
La tecnología CompactifAI patentada de Multiverse Computing es un enfoque único para comprimir modelos de IA, basado en la investigación sobre redes tensoriales de inspiración cuántica realizada por el cofundador y director ejecutivo Roman Orus y el propio equipo de investigación de la compañía.
Lo que frena las técnicas de imitación es el conocimiento técnico necesario para lograr tasas de compresión tan altas sin sacrificar la precisión.
CompactifAI puede reducir el tamaño del modelo hasta en un 95% con solo una pérdida de precisión del 2 al 3%, en comparación con el estándar de la industria de una pérdida de precisión del 20 al 30% después de solo una compresión del 50 al 60%.

Siga TechRadar en Google News y agréganos como fuente preferida para recibir noticias, análisis y opiniones de expertos en tus feeds. ¡Asegúrate de hacer clic en el botón Seguir!
Y por supuesto que tú también puedes Siga TechRadar en TikTok para noticias, reseñas, unboxings en formato de video y reciba actualizaciones periódicas de nuestra parte en WhatsApp también.














