Cuando Liquid AI, una startup ffundado por científicos informáticos del MIT en 2023introducido su Liquid Foundation Models serie 2 (LFM2) en julio de 2025La propuesta era simple: proporcionar los modelos base en dispositivos más rápidos del mercado utilizando la nueva arquitectura “líquida”, con eficiencias de entrenamiento e inferencia que convertían a los modelos pequeños en una alternativa seria a los grandes modelos de lenguaje solo en la nube (LLM) como la serie GPT de OpenAI y Gemini de Google.
El lanzamiento inicial proporcionó puntos de control densos en parámetros de 350M, 700M y 1.2B, una arquitectura híbrida fuertemente orientada a convoluciones cerradas cortas y números de referencia que colocaron a LFM2 por delante de competidores de tamaño similar como Qwen3, Llama 3.2 y Gemma 3 en calidad y rendimiento de CPU. El mensaje a las empresas fue claro: la IA en tiempo real y que preserva la privacidad en teléfonos, computadoras portátiles y vehículos ya no requiere sacrificar capacidad por latencia.
En los meses transcurridos desde ese lanzamiento, Liquid ha expandido LFM2 a una línea de productos más amplia, agregando variantes especializadas en tareas y dominiosuno Pequeño modelo de análisis e ingesta de vídeo.y uno pila de implementación centrada en el borde llamada LEAP – y posicionó los modelos como la capa de control para los sistemas de agentes en el dispositivo y en las instalaciones.
Ahora, con la publicación del informe técnico detallado de LFM2 de 51 páginas sobre arXivla empresa va un paso más allá: hace público el proceso de búsqueda de arquitectura, la combinación de datos de capacitación, el objetivo de destilación, la estrategia curricular y el proceso posterior a la capacitación detrás de estos modelos.
Y a diferencia de los modelos abiertos anteriores, LFM2 se basa en una receta repetible: un proceso de búsqueda de hardware en el circuito, un plan de estudios de capacitación que compensa presupuestos de parámetros más pequeños y un proceso posterior a la capacitación optimizado para seguir instrucciones y utilizar herramientas.
En lugar de simplemente ofrecer pesos y una API, Liquid está publicando efectivamente un plan detallado que otras organizaciones pueden usar como referencia para entrenar sus propios modelos pequeños y eficientes desde cero, adaptados a sus propias limitaciones de hardware y implementación.
Una familia de modelos diseñados en torno a limitaciones reales, no a laboratorios de GPU
El libro blanco comienza con una premisa con la que las empresas están íntimamente familiarizadas: los sistemas de IA reales alcanzan límites mucho antes que los puntos de referencia. Los presupuestos de latencia, los límites de memoria y la limitación térmica definen lo que realmente se puede ejecutar en producción, especialmente en computadoras portátiles, tabletas, servidores básicos y dispositivos móviles.
Para abordar esto, Liquid AI realizó una investigación arquitectónica directamente en el hardware de destino, incluidos los SoC móviles Snapdragon y las CPU de portátiles Ryzen. El resultado es un resultado consistente en todos los tamaños: una arquitectura híbrida mínima dominada por bloques de convolución cortos cerrados y un pequeño número de atención de consultas agrupadas (GQA) capas. Este diseño se seleccionó repetidamente frente a híbridos SSM y de atención lineal más exóticos porque proporcionaba un perfil de Pareto de memoria de latencia de mejor calidad en condiciones reales del dispositivo.
Esto es importante para los equipos empresariales de tres maneras:
Previsibilidad. La arquitectura es simple, eficiente en parámetros y estable en todos los tamaños de modelos, desde 350 millones hasta 2,6 mil millones.
Portabilidad operativa. Las variantes Dense y MoE comparten la misma columna vertebral estructural, lo que simplifica la implementación en flotas de hardware mixtas.
Viabilidad en el dispositivo. El rendimiento de llenado previo y decodificación en las CPU supera a los modelos abiertos comparables en aproximadamente el doble en muchos casos, lo que reduce la necesidad de descargar tareas rutinarias a puntos finales de inferencia en la nube.
En lugar de optimizar la novedad académica, el informe se interpreta como un intento sistemático de diseñar modelos que las empresas puedan en realidad enviar.
Esto es notable y más práctico para las empresas en un campo donde muchos modelos abiertos asumen silenciosamente el acceso a clústeres multi-H100 durante la inferencia.
Un canal de capacitación adaptado a comportamientos relevantes para el negocio
LFM2 adopta un enfoque de entrenamiento que compensa la menor escala de sus modelos con estructura en lugar de fuerza bruta. Los elementos clave incluyen:
Preentrenamiento de tokens 10-12T y un adicional Fase intermedia del entrenamiento de contexto 32Klo que amplía la útil ventana de contexto del modelo sin disparar los costos de cálculo.
UNO objetivo de destilación de conocimientos Top-K desacoplado esto evita la inestabilidad de la destilación KL estándar cuando los profesores sólo proporcionan logits parciales.
UNO secuencia post-entrenamiento de tres etapas—SFT, alineación de preferencias de longitud normalizada y fusión de plantillas, diseñado para producir un seguimiento de instrucciones y un comportamiento de uso de herramientas más confiables.
Para los desarrolladores de IA empresarial, lo importante es que los modelos LFM2 se comporten menos como “pequeños LLM” y más como agentes prácticos capaces de seguir formatos estructurados, adherirse a esquemas JSON y gestionar flujos de chat de múltiples turnos. Muchos modelos abiertos de tamaño similar fracasan no por falta de capacidad de razonamiento, sino por una débil adherencia a los modelos instruccionales. La receta post-entrenamiento de LFM2 apunta directamente a estos aspectos.
En otras palabras: Liquid AI ha optimizado modelos pequeños para confiabilidad operativano sólo marcadores.
Multimodalidad diseñada para limitaciones de dispositivos, no para demostraciones de laboratorio
Las variantes LFM2-VL y LFM2-Audio reflejan otro cambio: la multimodalidad construida alrededor eficiencia simbólica.
En lugar de incorporar un enorme transformador de visión directamente en un LLM, el LFM2-VL conecta un codificador SigLIP2 a través de un conector que reduce agresivamente el recuento de tokens visuales a través de PixelUnshuffle. Las entradas de alta resolución activan automáticamente bloques dinámicos, lo que mantiene los presupuestos de tokens manejables incluso en hardware móvil. LFM2-Audio utiliza una ruta de audio bifurcada (una para incrustación y otra para generación) que admite transcripción en tiempo real o voz a voz en CPU modestas.
Para los arquitectos de plataformas empresariales, este proyecto apunta a un futuro práctico en el que:
la comprensión de los documentos ocurre directamente en terminales, como dispositivos de campo;
transcripción de audio y agentes de voz administrados localmente para cumplir con la privacidad;
Los agentes multimodales operan dentro de sobres de latencia fija sin transmitir datos fuera del dispositivo.
El resultado final es el mismo: capacidad multimodal sin necesidad de una granja de GPU.
Modelos de recuperación creados para sistemas de agentes, no para búsquedas heredadas
LFM2-ColBERT amplía la recuperación de interacción tardía en un espacio lo suficientemente pequeño para implementaciones empresariales que necesitan RAG multilingüe sin la sobrecarga de aceleradores de bases de datos vectoriales especializados.
Esto es particularmente significativo a medida que las organizaciones comienzan a organizar flotas de agentes. La recuperación local rápida (que se ejecuta en el mismo hardware que el modelo de razonamiento) reduce la latencia y proporciona una ventaja de gobernanza: los documentos nunca salen de los límites del dispositivo.
Juntas, las variantes VL, Audio y ColBERT muestran el LFM2 como un sistema modular en lugar de un modelo único.
El modelo emergente para arquitecturas híbridas de IA empresarial
En todas las variantes, el informe LFM2 describe implícitamente cómo será la pila de IA empresarial del mañana: Orquestación de nube híbrida localdonde los modelos pequeños y rápidos que operan en dispositivos manejan tareas críticas de información, formateo, invocación de herramientas y juicio, mientras que los modelos más grandes en la nube brindan un razonamiento intensivo cuando es necesario.
Aquí convergen varias tendencias:
Control de costes. La ejecución local de inferencias de rutina evita cargos impredecibles en la nube.
Determinismo de latencia. TTFT y la estabilidad de la decodificación son importantes en los flujos de trabajo de los agentes; en el dispositivo elimina la fluctuación de la red.
Gobernanza y cumplimiento. La ejecución local simplifica el manejo de PII, la residencia de datos y la auditabilidad.
Resiliencia. Los sistemas de agentes normalmente se degradan si la ruta a la nube deja de estar disponible.
Es probable que las empresas que adopten estas arquitecturas traten los modelos pequeños en el dispositivo como el “plano de control” de los flujos de trabajo de los agentes, y los modelos grandes en la nube sirvan como aceleradores bajo demanda.
LFM2 es una de las bases de código abierto más claras para esta capa de control hasta la fecha.
La conclusión estratégica: la IA en el dispositivo es ahora una elección de diseño, no un compromiso
Durante años, las organizaciones que desarrollan capacidades de IA han aceptado que la “IA real” requiere inferencia en la nube. LFM2 desafía esta suposición. Los modelos funcionan de manera competitiva en razonamiento, seguimiento de instrucciones, tareas multilingües y RAG, al tiempo que logran ganancias sustanciales de latencia con respecto a otras familias abiertas de modelos pequeños.
Para los CIO y CTO que están finalizando sus hojas de ruta para 2026, las implicaciones son sencillas: Los modelos pequeños y abiertos en dispositivos ahora son lo suficientemente potentes como para soportar porciones importantes de cargas de trabajo de producción.
LFM2 no reemplazará los modelos de nubes límite para el razonamiento a escala de límites. Pero ofrece algo que las empresas probablemente más necesitan: una base reproducible, abierta y operativamente viable para Sistemas de agentes que deben ejecutarse en cualquier lugar.desde teléfonos hasta terminales industriales e instalaciones seguras aisladas.
En el panorama cada vez más amplio de la IA empresarial, LFM2 es menos un hito de investigación y más un signo de convergencia arquitectónica. El futuro no es la nube ni el borde: son ambos operando juntos. Y lanzamientos como LFM2 proporcionan la base para organizaciones preparadas para construir este futuro híbrido de forma intencionada y no accidental.













