Los operadores de centros de datos son muy conscientes de que asegurar el acceso a la red es la tarea número uno en su lista de tareas pendientes. Pero la extraordinaria demanda que imponen a la red la inteligencia artificial (IA) y la computación de alto rendimiento (HPC) tiene otra preocupación que asciende rápidamente en la lista: la calidad de la energía. Si bien los centros de datos que ejecutan cargas de trabajo tradicionales han solucionado en gran medida la calidad de la energía, las aplicaciones de IA/HPC están planteando nuevos desafíos a medida que cambia la naturaleza de la computación.

Las consecuencias de la mala calidad de la energía

El procesamiento y la inferencia de IA, intensivos en computación y sensibles al tiempo, son particularmente vulnerables a anomalías de energía como fluctuaciones de voltaje, desviaciones de frecuencia, armónicos, cortes y eventos transitorios. Las consecuencias pueden ser duras y provocar:

  • Errores de procesador, inestabilidad de la memoria y fallas del sistema de almacenamiento que interrumpen el acceso a los datos y corrompen los resultados.
  • Resultados de entrenamiento irrepetibles y poco confiables, picos de latencia y tiempos de espera que afectan la integridad del modelo y del algoritmo.
  • Fallos de nodos que afectan grandes cargas de trabajo de IA que se ejecutan en varios servidores.
  • Caídas que reinician sistemas o cancelan sesiones activas.
  • Unidades de fuente de alimentación o convertidores sobrecalentados en bastidores de IA de alta densidad.
  • Aceleración del sistema que inicia apagados térmicos para proteger los componentes.
  • Fallo del transformador, que puede resultar especialmente costoso en términos de tiempo de inactividad.

Centros de datos: una fuente de energía “sucia”

Generalmente, el voltaje sigue una onda ondulante caracterizada por oscilaciones periódicas suaves. Los estándares internacionales para cargas en estado estacionario establecidos a mediados de la década de 1990 que rigen las corrientes armónicas, las fluctuaciones de voltaje y otros factores han sido de gran utilidad para los operadores de centros de datos. Pero los modelos de IA provocan aumentos masivos y repentinos en el uso de energía, lo que hace que el “espacio en blanco” dentro de un centro de datos (la sala que alberga equipos de tecnología de la información (TI), como servidores, almacenamiento y equipos de redes) sea la fuente de distorsión.

La extracción de energía en ráfagas rápidas y desiguales genera armónicos que distorsionan la onda de voltaje. La conmutación de alta frecuencia utilizada en los servidores para regular el voltaje añade aún más ruido eléctrico a la mezcla. Y los fenómenos meteorológicos extremos, como las olas de calor, pueden amplificar aún más los armónicos a medida que los variadores de frecuencia (VFD) ajustan la energía eléctrica suministrada a los ventiladores de refrigeración. Si no se filtra adecuadamente, todo este caos puede retroalimentarse a la propia red, dañando equipos sensibles alejados de la fuente.

La energía “sucia”, plagada de armónicos, distorsiones de voltaje, transitorios, desequilibrios y otras irregularidades, también aumenta la pérdida de energía, porque la generación y transmisión de energía se vuelven menos eficientes.

Una nueva solución para los subarmónicos

Si bien los armónicos de las cargas de trabajo de IA se pueden mitigar mediante una variedad de enfoques, existen problemas importantes con los subarmónicos: oscilaciones en frecuencias que son una fracción de la frecuencia fundamental (base). Los impulsos de carga los exacerban. Los subarmónicos no solo pueden degradar la calidad de la energía y crear problemas con los generadores locales, sino que también desestabilizan los convertidores CC/CC, provocan sobrecalentamiento y provocan fallas prematuras en los equipos. Las soluciones de suministro de energía, como filtros activos de armónicos, transformadores mitigadores de armónicos y sistemas de suministro de energía ininterrumpida (UPS), no los resuelven.

Las nuevas tecnologías están abordando los desafíos que surgen de la computación AI/HPC. Esta nueva tecnología innovadora, conocida como sistema de almacenamiento de energía capacitivo (CESS), respalda y equilibra las fuentes de alimentación durante grandes sobretensiones o sobretensiones causadas por cambios repentinos en las cargas eléctricas (Figura 1). Contrarresta los subarmónicos sin amplificar los requisitos de energía y refrigeración ni acortar la vida útil de los chips que ejecutan las cargas de trabajo de AI/HPC.

1. Flex CESS: Análisis de armónicos de potencia de entrada: pulso/servicio de 0,1 Hz = 20 %. Cortesía: Flex

Asuma un papel activo para garantizar la calidad de la energía

Con la intensificación de la computación y la proliferación de los centros de datos, “más vale prevenir que lamentar” es una buena regla general. En términos generales, la red es el receptor de energía sucia. Si la infraestructura de la red está obsoleta o sobrecargada, puede propagar las perturbaciones a la fuente y a otros usuarios, lo que no sólo supone un riesgo financiero y operativo, sino también reputacional. Lo mejor para los operadores de centros de datos es hacer su parte para limpiarlo:

  • Asesoramiento sobre armónicos antes del diseño del sistema.
  • Considerando no sólo los armónicos, sino también los subarmónicos.
  • Implementar filtros armónicos activos e “inteligentes”.
  • Utilizar equipos de corrección del factor de potencia.
  • Instalación de transformadores de aislamiento que restrinjan el ruido y los armónicos.
  • Colaborar con empresas de servicios públicos para pronosticar y suavizar grandes cargas de IA.
  • Cumplir con los estándares de interconexión de servicios públicos.

Resuelva los desafíos a nivel del sistema

En el momento en que la calidad de la energía comienza a erosionarse, las consecuencias se acumulan. La calidad de la energía es un problema a nivel de sistema que requiere soluciones a nivel de sistema. La nueva tecnología está permitiendo a los operadores de centros de datos mejorar la calidad de su energía y el impacto general en la red, solucionando en última instancia los subarmónicos.

Chris Butler es presidente de Embedded and Critical Power con Flex.

Fuente