Presentado por Solidigm.
La refrigeración líquida está reescribiendo las reglas de la infraestructura de IA, pero la mayoría de las implementaciones aún tienen que ir más allá. Las GPU y CPU pasaron a la refrigeración líquida, mientras que el almacenamiento dependía del flujo de aire, creando una arquitectura híbrida operativamente ineficiente.
Lo que parece ser una estrategia de transición pragmática es, en la práctica, un inconveniente estructural.
“Un enfoque de refrigeración híbrida es una situación operativamente ineficiente”, explica Hardeep Singh, director del equipo de hardware termomecánico de Solidigm. “Está pagando y manteniendo dos infraestructuras de refrigeración costosas y completamente separadas y podría estar expuesto a los peores problemas del mundo”.
Mientras que la refrigeración líquida requiere bombas, colectores de fluidos y unidades de distribución de refrigerante (CDU), los componentes enfriados por aire requieren unidades CRAC, pasillos fríos y torres de refrigeración por evaporación. Las organizaciones que adoptan una solución híbrida simplemente agregando algo de refrigeración líquida están absorbiendo el costo adicional sin capturar todos los beneficios del TCO.
La física térmica empeora las cosas. Las voluminosas placas frías de refrigeración líquida, las mangueras gruesas y los colectores obstruyen físicamente el flujo de aire dentro del chasis del servidor GPU. Esto concentra el estrés térmico en los componentes restantes enfriados por aire, incluidas las unidades de almacenamiento, la memoria y las tarjetas de red, porque los ventiladores del servidor no pueden impulsar un flujo de aire adecuado alrededor de las tuberías de líquido. Los componentes que más dependen del ventilador acaban en el peor entorno térmico posible.
El consumo de agua es un problema prácticamente ignorado e igualmente grave. Los componentes tradicionales refrigerados por aire dependen de los ventiladores del servidor para trasladar el calor al aire ambiente, que luego es absorbido por un circuito de agua y bombeado a torres de enfriamiento por evaporación. Estos sistemas pueden consumir millones de litros de agua con el tiempo. A medida que las densidades de energía de los racks continúan aumentando para soportar las cargas de trabajo modernas de IA, la penalización por la evaporación del agua se vuelve, como dice Singh, “indefendible desde el punto de vista ambiental y económico”.
A medida que la infraestructura de IA evoluciona hacia sistemas GPU sin ventilador y refrigerados por líquido, las verdaderas limitaciones de escala están pasando del rendimiento informático al diseño térmico a nivel de sistema. Las plataformas modernas de IA ya no se construyen servidor por servidor; Están diseñados como sistemas totalmente integrados a nivel de bastidor y módulo donde la entrega de energía, la distribución de refrigeración y la ubicación de los componentes son inseparables.
En este entorno, las arquitecturas de almacenamiento diseñadas para centros de datos que dependen del flujo de aire se están convirtiendo en un factor limitante. A medida que las plataformas GPU se trasladan completamente a dominios de refrigeración líquida compartida, anclados por CDU a nivel de bastidor, cada componente del sistema debe funcionar de forma nativa dentro del mismo diseño térmico y mecánico. El almacenamiento ya no puede depender de rutas de enfriamiento aisladas o suposiciones térmicas personalizadas sin introducir compensaciones de ineficiencia, complejidad o densidad a nivel del sistema.
Por qué el almacenamiento ya no es un subsistema pasivo
Para los líderes de infraestructura, esto marca una transición fundamental. El almacenamiento ya no es un subsistema pasivo conectado a la computación, sino más bien un participante activo en el enfriamiento, la capacidad de servicio y la utilización de la GPU a nivel del sistema. La capacidad de escalar la IA ahora depende de si el almacenamiento se puede integrar limpiamente en sistemas GPU refrigerados por líquido sin fragmentar las arquitecturas de refrigeración ni restringir el diseño a nivel de rack.
Y la carrera para escalar la IA ya no se trata sólo de quién tiene más GPU, sino de quién puede mantenerlas frescas, dice Scott Shadley, director de narración de liderazgo y evangelista de Solidigm.
“Encontrar una manera de habilitar el almacenamiento refrigerado por líquido y al mismo tiempo hacerlo utilizable por el usuario ha sido uno de los mayores desafíos en el diseño de soluciones de sistemas sin ventilador”, dice Shadley. “A medida que las cargas de trabajo de IA evolucionen, la presión sobre el almacenamiento no hará más que intensificarse”.
Técnicas como la descarga de caché KV, que mueven datos entre la memoria de la GPU y el almacenamiento de alta velocidad durante la inferencia, hacen que la latencia del almacenamiento y el rendimiento térmico sean directamente relevantes para la eficiencia del servicio del modelo. En estas arquitecturas, un subsistema de almacenamiento que se acelera debido al flujo de aire tradicional deficiente bajo carga térmica ralentiza las lecturas y el modelo mismo.
Cambio a refrigeración líquida integrada
El cambio de servidores GPU tradicionales refrigerados por aire a bastidores integrados refrigerados por líquido mejora la eficiencia del uso de energía (PUE) y reduce el costo operativo del centro de datos. También reemplaza el ruidoso controlador de aire de la sala de computadoras (CRAH) e introduce una CDU líquida moderna y eficiente, con potencial para eliminar los refrigeradores si los racks se pueden enfriar a una temperatura del líquido de 45 °C.
Cuando el almacenamiento se enfría con líquido en ausencia de ventiladores, también debe resistir el mantenimiento sin fugas de líquido. Esto también crea un nuevo requisito que muchos equipos de infraestructura apenas están comenzando a abordar: todos los componentes del rack deben funcionar de forma nativa dentro de la misma arquitectura de enfriamiento.
El almacenamiento como participante activo en el diseño del sistema.
El diseño del almacenamiento ya no es un problema de ingeniería aislado. Es una variable directa en la utilización de la GPU, la confiabilidad del sistema y la eficiencia operativa. La solución es rediseñar el almacenamiento desde cero para entornos sin ventilador y refrigerados por líquido. Esto es más difícil de lo que parece. El diseño tradicional de SSD supone un flujo de aire para la gestión térmica y coloca los componentes en ambos lados de una PCB aislada térmicamente. Ninguna suposición es válida en una arquitectura anclada a CDU.
“Los SSD deben diseñarse con la mejor solución térmica de su clase para conducir específicamente el calor lejos de los componentes internos de manera eficiente y transferirlo al fluido”, dice Singh. “El diseño debe incluir una ruta de baja resistencia para la transferencia de calor a una única placa fría fijada a un lado”.
Al mismo tiempo, los inversores deben resistir el mantenimiento sin fugas de líquido durante la inserción y extracción y sin degradar la interfaz térmica entre el inversor y la placa fría.
Solidigm trabajó con Nvidia para abordar los desafíos de la refrigeración líquida de SSD, como la capacidad de intercambio en caliente y la refrigeración unidireccional, reduciendo la huella térmica del almacenamiento dentro del circuito líquido compartido y garantizando que las GPU reciban su parte proporcional de refrigerante.
“Si el almacenamiento no se diseña de manera eficiente para un entorno refrigerado por líquido, disminuirá el rendimiento o requerirá más volumen de líquido”, afirma. “Lo que conduce directa e indirectamente a la subutilización de la capacidad de la GPU”.
Alineación con los estándares y camino hacia la interoperabilidad
Solidigm no trabaja en esto de forma aislada. La industria en general se está reuniendo en torno a estándares para garantizar que los sistemas de IA refrigerados por líquido sean interoperables, en lugar de un mosaico de soluciones personalizadas. SNIA y Open Compute Project (OCP) son los principales organismos que realizan este trabajo.
Solidigm ha liderado el estándar industrial para refrigeración líquida en SFF-TA-1006 para el factor de forma E1.S y participa activamente en los flujos de trabajo de OCP que cubren el diseño de racks, la gestión térmica y la sostenibilidad. Las soluciones de refrigeración personalizadas para almacenamiento están dando paso a diseños alineados con los estándares y listos para producción que se integran perfectamente con plataformas GPU refrigeradas por líquido.
“Hay varias organizaciones involucradas en este trabajo”, dice Shadley, quien también es miembro de la junta directiva de SNIA. “Comenzaron con soluciones a nivel de componentes, que están impulsadas en gran medida por SNIA y el SFF TA TWG. El siguiente nivel es el trabajo a nivel de solución, que actualmente está siendo impulsado en gran medida por OCP”.
La hoja de ruta de Solidigm está marcando el camino
Las reglas de diseño para arquitecturas a nivel de sistema han cambiado debido a la llegada de las tecnologías de inmersión y refrigeración líquida que permiten reglas de diseño más exclusivas y la eliminación de algunas barreras. La capacidad de los sistemas para ejecutar plataformas NVMe SSD únicamente también permite eliminar la restricción de la caja basada en plato que existe en las soluciones HDD, afirma Shadley.
“Los clientes de Solidigm desempeñan un papel activo y de liderazgo en las decisiones sobre la hoja de ruta de nuestros productos debido a su profunda alineación técnica con el ecosistema”, afirma. “No solo fabricamos y vendemos productos, sino que integramos, codiseñamos, codesarrollamos e innovamos con y junto con nuestros socios, clientes y sus clientes”.
Singh añade: “La principal fortaleza de Solidigm es la innovación y la ingeniería a nivel de sistema inspirada en el cliente. Continuará liderando agresivamente el camino en la adopción de refrigeración líquida para almacenamiento”.
Los artículos patrocinados son contenidos producidos por una empresa que paga por la publicación o tiene una relación comercial con VentureBeat y siempre están claramente marcados. Para más información, póngase en contacto ventas@venturebeat.com.

















