¿Cómo está impulsando Neocloud Nscale el crecimiento de la infraestructura de IA?

La IA ya no es una apuesta secundaria para la mayoría de las organizaciones, sino que se está convirtiendo rápidamente en la columna vertebral de cómo se fabrican los productos, se toman las decisiones y se realiza el trabajo. Estos cambios entran en conflicto con realidades físicas difíciles. La potencia de procesamiento detrás de la IA moderna es intensa, densa, hambrienta y aún escasa. Está empujando a los operadores de centros de datos a ofrecer más capacidad, mucho más rápido, a menudo en proyectos de cientos de megavatios de tamaño y con cronogramas que parecen más cercanos a meses que a años.

El resultado es una nueva carrera armamentista de infraestructura, con el surgimiento de “neonubes” junto con hiperescaladores para proporcionar capacidades centradas en la IA. Y esa carrera armamentista está atrayendo enormes cantidades de capital. La inversión en centros de datos se está disparando a cientos de miles de millones de dólares al año, y PwC estima que la demanda de capacidades de respuesta requerirá aproximadamente 2 billones de dólares para 2030. Los manuales financieros están evolucionando de manera similar. Está surgiendo una nueva estructura de acuerdos. Esto difumina las líneas entre el contrato y el cliente. La financiación de la infraestructura y la adquisición de hardware no está clara y plantea nuevas preguntas sobre el riesgo compartido y la resiliencia.

Nidhi CHAPPELL tiene un asiento en primera fila para ver cómo estas dinámicas están remodelando la estrategia. Actualmente trabaja en la alta dirección de neocloud Nscale en Europa como presidenta global de infraestructura de IA y anteriormente ocupó puestos de liderazgo senior en infraestructura de IA en Microsoft Azure. Esta versión editada de su entrevista. Estrategia+Negocios CHAPPELL describe lo que los líderes de la alta dirección a menudo subestiman sobre la ampliación de las capacidades de IA, incluido el modelo operativo y el impacto del talento de la infraestructura densa en IA, y la creciente importancia de la transparencia en el uso de la energía y el agua. También explica el cambio que ve que dará forma a la próxima generación de instalaciones: más modulares. Más herramientas y una gestión más estricta, y lo que eso significa para las decisiones ejecutivas sobre la estrategia de capacidad. Ecosistema de socios y equilibrio a largo plazo entre velocidad, rendimiento y control.

S+B: ¿Qué es lo que más le impresiona de este momento en la industria de los centros de datos?
Capilla Nidhi:
El ritmo no se parece a nada que haya visto antes. En los primeros días de la nube, la demanda era enorme. Pero todavía está dentro de los límites de lo que pueden ofrecer los diseños de centros de datos existentes. Ahora se nos pide que construyamos sitios que puedan suministrar cientos de megavatios de electricidad. El rack soporta más de 100 kilovatios y lo hace todo en regiones que priorizan las energías renovables, y en 12 meses, no tres años.

También hemos visto un cambio de densidad de racks de 6 kW a más de 130 kW por rack en un periodo de tiempo muy corto. Ese es un cambio profundo. Afecta a todo. Desde los sistemas de distribución de energía hasta la topología de refrigeración y la estructura física del centro de datos. Los diseños que implican refrigeración por aire ya no son posibles. Esto se debe a que la refrigeración líquida y la refrigeración son fundamentales.

Desde una perspectiva estratégica Esto ha acelerado el paso hacia el diseño modular. El trabajo de montaje tradicional puede llevar demasiado tiempo y, a menudo, ser demasiado riguroso. Mediante el uso de módulos prefabricados y gemelos digitales, podemos diseñar la refrigeración y el consumo de energía específicos de cada unidad de procesamiento de gráficos (GPU) incluso antes de que llegue el kit. Esto nos permite implementar rápidamente. sin comprometer la eficiencia o la sostenibilidad

Al final, fue diferente en cuanto a quiénes estaban en la mesa. La infraestructura de IA es ahora un tema de nivel directivo para bancos, gobiernos, universidades y empresas industriales. Ese no era el caso en los primeros días. de la migración a la nube y la transformación digital La combinación de partes interesadas es más amplia. Y las expectativas son mayores.

La infraestructura de IA es ahora un tema del Grupo C para las empresas de todo el sector. La combinación de partes interesadas es más amplia. Y las expectativas son mayores.

S+B: ¿Cómo se compara el modelo de negocio de Nscale con el de los hiperescaladores tradicionales?
iglesia:
Tenemos una estructura diferente a la de los hiperescaladores tradicionales. Nos integramos verticalmente. Esto significa que diseñamos, construimos, poseemos y operamos nuestra infraestructura. Desde el centro de datos hasta la pila de software de gestión que se ejecuta sobre él. Esto nos permite optimizar el rendimiento de la IA, no solo las cargas de trabajo generales en la nube. Lo creamos específicamente para sistemas basados ​​en GPU de alta densidad desde cero. Los modelos de hiperescalado tradicionales se basan en gran medida en informática de propósito general y ciclos de inversión a largo plazo construidos en torno a zonas de disponibilidad de múltiples inquilinos.

Eficiencia del rendimiento Rápida implementación y capacidad de adaptarse a nuevos requisitos de procesamiento. Esto es especialmente importante en IA, donde los modelos de hardware se actualizan cada 12 a 18 meses. Nuestro enfoque sigue ese ritmo y permite actualizaciones rápidas y eficientes de nuestra infraestructura.

S+B: A medida que se acelera la adopción de la nube, nació Neocloud. y finalmente se combinaron varios grupos. ¿Hay alguna señal de que esta vez será diferente?
iglesia:
Nscale existe porque el mercado está cambiando. Empresas de la generación anterior aún no se ha adaptado a las necesidades del cliente. Los clientes ahora esperan acceso a bloques grandes y continuos de capacidad lista para IA, entregados en cronogramas claros y ejecutados con un rendimiento consistente.

La densidad, los requisitos de refrigeración y las demandas de energía de las cargas de trabajo de IA están reescribiendo las reglas. Se requieren diferentes métodos de diseño. Diferentes métodos de construcción y disciplina en la realización de diferentes tareas. Básicamente, estamos creando un conjunto completamente nuevo de necesidades que resulta en un modelo de negocio más defendible.

Las neonubes también varían significativamente en su profundidad en la pila. Por ejemplo, algunos alquilan sus GPU en una ubicación central y tienen una capa API encima. Nscale tiene la propiedad total desde el suelo hasta la nube: somos propietarios del centro de datos, el software y el hardware, incluida la energía. Perfiles de refrigeración, redes, organización y sostenibilidad. Esto nos permite integrar cosas como la refrigeración líquida de circuito cerrado y los gemelos digitales. compatible con la arquitectura del lugar Porque así fuimos diseñados. Proporcionamos soluciones avanzadas para permitir a nuestros clientes ejecutar cargas de trabajo de IA dentro de los marcos legales. Funcionamiento y seguridad propia.

S+B: Cuando se habla de soberanía Una encuesta reciente que realizamos con ejecutivos de la industria muestra que la soberanía de los datos es una de sus principales preocupaciones. Sólo superado por el coste. ¿Es ésta una tendencia que ve entre sus clientes?
iglesia:
Por supuesto, la soberanía es cada vez más importante en todos los sectores. Especialmente en industrias altamente reguladas como la atención médica, las finanzas y el gobierno, estamos construyendo globalmente para brindar soluciones avanzadas de IA a los países. que desean los beneficios y la seguridad de tener computadoras dentro de sus fronteras o dentro del ecosistema regulatorio de esos países

S+B: Se habla de ‘financiación rotativa’ entre las tendencias de los centros de datos de IA. ¿Cómo ves esta tendencia? ¿Y qué salvaguardias ve para el crecimiento sostenible?
iglesia:
A medida que aumentan las necesidades de procesamiento, es normal que surjan nuevos modelos financieros. desarrollado alrededor de La intensidad de capital de la infraestructura de IA ha atraído a un nuevo tipo de inversor. Ahora vemos los fondos soberanos. Participarán fondos de capital privado de infraestructura y varias empresas del ecosistema de chips. Refleja cuán estratégicas se han vuelto las capacidades de procesamiento.

Pero también significa que las expectativas sobre el tamaño, los plazos y los retornos son más estrictas. Para avanzar a este nivel, necesita un socio que comprenda los ciclos de actualización de hardware y las realidades de la implementación en regiones emergentes. Por eso la integración vertical es importante. Proporciona control sobre el cronograma y el rendimiento.

S+B: A medida que aumenta el número de centros de datos, ¿hay factores que preocupan a la industria para mantenerse al día con la demanda?
iglesia:
Lo importante es la capacidad. Hablamos mucho de suministro de energía y refrigeración. Pero no hablamos lo suficiente sobre las personas necesarias para construir y operar estas instalaciones. Cuando te mudas a una región remota con energía renovable, será más difícil encontrar trabajadores expertos.

Es por eso que nos asociamos con universidades técnicas locales y realizamos pasantías para desarrollar esas habilidades en las áreas donde operamos. Pero en general es necesario un camino más estructurado en este sector. La complejidad de la infraestructura de IA requiere que los empleados comprendan todo, desde la ingeniería mecánica hasta la orquestación de software. Por lo tanto, compartir conocimientos en diversos campos de estudio es, por tanto, más importante que nunca. Los ingenieros que utilizan sistemas de refrigeración líquida deben comprender las cargas de trabajo que soportan. Los técnicos que realizan cambios de GPU deben comprender cómo la estabilidad térmica afecta el rendimiento del modelo. Necesitamos más formación interdisciplinaria.

Lo que ha cambiado es la forma en que operamos. A medida que la infraestructura se vuelve nativa de la IA, las operaciones también deben convertirse en IA. Eso significa crear sistemas que aumenten a las personas con la automatización. De esta forma, los equipos pueden centrarse en tareas complejas y de alto valor con mayor precisión.

S+B: Respecto a las preocupaciones sobre el uso de energía y agua ¿Cuál es el mensaje para quienes se preocupan por estas cosas por la noche?
iglesia:
La transparencia es importante y necesitamos mejorar como industria en la publicación de métricas reales como los megavatios utilizados. Porcentaje de fuentes de energía renovables y puntos de referencia de desempeño como la eficiencia en el uso de energía (PUE). En Nscale, operamos a aproximadamente 1,1 PUE, que es la operación más eficiente que he visto en mi carrera. También diseñamos sistemas que capturan y reutilizan el calor residual, por ejemplo en Glomfjord. Noruega El calor residual se envía directamente a la acuicultura local.

La clave es diseñar su infraestructura para que sea eficiente de forma predeterminada. y utilice refrigeración natural cuando sea posible. En Goldfjord podemos eliminar las emisiones de los generadores diésel. y recurrir a la confiabilidad de la red renovable de Noruega y a sus sistemas robustos para mantener el tiempo de actividad. La tecnología para crear eficiencia existe. Ahora hay que priorizar.

S+B: ¿Otras innovaciones recientes en tecnología DC u otras operaciones? ¿Cuáles son las cosas más interesantes que la gente quizás no sepa?
iglesia:
La tecnología Digital Twin que mencioné anteriormente es extremadamente valiosa para ayudarnos a modelar todo el espacio. Ya sea energía, refrigeración y procesamiento antes de crear. Eso significa que podemos probar diferentes configuraciones de hardware. Se detectó un problema de cuello de botella térmico y verificó el flujo de aire o la ruta del refrigerante varios meses antes de su uso. Ahorra tiempo y reduce las conjeturas.

S+B: Si tuvieras que diseñar ¿Cómo será el ‘centro de datos del futuro’? ¿Y por qué?
iglesia:
Será totalmente modular. Existe una producción prefabricada avanzada. Y está diseñado para ejecutarse continuamente a través de ciclos de actualización de IA, lo que significa que los bloques de procesamiento, energía y enfriamiento se pueden cambiar de forma independiente.

Funcionará como una fábrica de inteligencia de próxima generación: la producción de tokens, los resultados de inferencia y el entrenamiento de modelos son continuos. Contará con un sistema de grúa integrado. Refrigeración líquida en circuito con válvula de aislamiento y un sistema de gestión basado en IA que optimiza el uso de energía y el rendimiento en tiempo real. Y lo más importante: estará cerca de abundante energía renovable.

Los centros de datos no estarán aislados. En cambio, será parte del tejido de inteligencia artificial de las telecomunicaciones. Una capa de nodo de IA de borde distribuido residirá dentro de la red de telecomunicaciones para brindar inteligencia de latencia ultrabaja donde sea necesaria.

Biografía del autor:

  • David de Lallo es coeditor de PwC y S+B

Fuente