A principios de la década de 2000, los arquitectos de Internet enfrentaron un problema moderno que parece familiar: ¿Cómo se construye un sistema que maneje una demanda masiva e impredecible sin fallar cuando falla alguna parte?
Su respuesta fue construir un sistema de redes entre pares. En lugar de enrutar todo a través de servidores centrales, los sistemas P2P han distribuido la carga entre miles de nodos individuales, sin un único punto de falla, con inteligencia más cerca del usuario y resiliencia integrada en la arquitectura en lugar de fijada en la parte superior.
El artículo continúa a continuación.
Fundador del fondo de inversión Epochal Corporation.
Entonces, ¿cómo computación en la nube A medida que la era se afianzó, el modelo de hiperescala se convirtió en la lógica de infraestructura dominante de los últimos quince años. Su premisa (agregar todo en los centros de datos más grandes posibles, optimizar el costo unitario, centralizar sin límites) tenía sentido para muchas cargas de trabajo.
Pero la inferencia de IA, la fase de la IA que ahora está explotando en los entornos empresariales, opera exactamente con los mismos principios que hicieron atractivo el P2P en primer lugar.
Entendiendo por qué
Comprender por qué es necesario separar dos fases de la IA que a menudo se confunden. Entrenar un modelo grande es un proceso único y computacionalmente intensivo. Funciona bien en infraestructura centralizada y agregada, y la lógica de hiperescala permanece ahí. La inferencia es diferente.
La inferencia ocurre siempre que el modelo se utiliza realmente: un sistema de detección de fraude que señala una transacción, un sistema predictivo sistema de mantenimiento identificación de fallas en planta de fábrica, plataforma logística recalculando rutas en tiempo real. Estas decisiones ocurren continuamente, en milisegundos, en el punto donde realmente se ejecutan las operaciones.
Enrutar cargas de trabajo de inferencia a una instalación distante de hiperescala introduce una latencia que es simplemente incompatible con muchos de estos casos de uso. Un sistema de atención quirúrgica no puede esperar a un viaje de ida y vuelta a un centro de datos en otra región. Ni un sistema de seguridad industrial, ni un dron de inspección autónomo ni un agente de atención al cliente en tiempo real que opere dentro de una infraestructura minorista.
McKinsey predice que la demanda mundial de centros de datos se triplicará con creces para 2030, impulsada abrumadoramente por la inferencia más que por la capacitación, y la infraestructura que atiende esa demanda debe construirse en torno a lo que la inferencia realmente exige, que es la computación cerca de donde ocurre la decisión.
La respuesta de los sistemas P2P fue dejar de tratar la distribución como un problema y empezar a tratarla como arquitectura. BitTorrent no ha intentado resolver transferencia de archivos Construyendo servidores centrales más rápidos, pero distribuyendo el problema entre miles de nodos: cada uno cerca de un usuario, cada uno manejando la demanda local localmente.
Cuando los nodos individuales cayeron, el sistema se degradó en el margen. Sin centrales servidor La caída se llevó consigo toda la red. La arquitectura tomó el fracaso y se construyó en torno a él, superando a las alternativas centralizadas en velocidad, resiliencia y escala simultáneamente.
Computación de borde
La computación perimetral aplica la misma lógica a la infraestructura de IA. Las instalaciones informáticas modulares más pequeñas ubicadas cerca de donde se generan y consumen los datos distribuyen la carga de trabajo de inferencia de la misma manera que la transferencia de archivos distribuidos P2P. Cada sitio maneja las decisiones locales a nivel local. La red en su conjunto se vuelve más resistente porque ninguna instalación soporta toda la carga.
La ejecución centralizada de esta inferencia también conlleva un costo que aumenta con la escala: cada vez que los datos salen de la red de un proveedor de nube a hiperescala, las organizaciones pagan tarifas de salida.
Para las cargas de trabajo de IA que requieren una transferencia continua de datos entre una instalación central y entornos operativos distribuidos, estas cargas se acumulan de maneras que son fáciles de subestimar en la fase de planificación. Procesar datos localmente en el borde (cerca de donde se generan) primero reduce el volumen que atraviesa la red.
Un cambio de hardware también está alterando el cálculo de viabilidad a nivel de dispositivo. Las unidades de procesamiento neuronal (NPU) diseñadas específicamente para tareas de inferencia de IA ahora están integradas en teléfonos inteligentes, cuadernosy dispositivos industriales de última generación.
La computación necesaria para ejecutar cargas de trabajo de inferencia capaces ha ido disminuyendo constantemente, y el hardware que habría requerido un rack de servidores hace unos años ahora cabe en un dispositivo portátil.
A medida que el hardware con capacidad de inferencia se vuelve más barato y físicamente más compacto, se vuelve más difícil respaldar la suposición de que cada carga de trabajo debe enrutarse de regreso a una instalación centralizada.
Soberanía de datos
A medida que la regulación de la soberanía de los datos se vuelve más estricta en la UE, el sudeste asiático, América Latina y otros países, centralizar la inferencia en un pequeño número de instalaciones crea exposición legal.
Para las organizaciones que operan en múltiples jurisdicciones, la infraestructura de borde resuelve esto por diseño: los datos se procesan localmente, dentro de la jurisdicción relevante, sin requerir soluciones legales y técnicas complejas después del hecho.
Finalmente, otro elemento importante es que la disponibilidad de energía –no el precio– se está convirtiendo en la limitación vinculante de la capacidad de los centros de datos. En el norte de Virginia, el centro de nube más denso del mundo, las empresas de servicios públicos han proyectado cronogramas de conexión para proyectos importantes que se extienden hasta siete años debido a la congestión de la red.
Los centros de datos de Irlanda consumen actualmente más del 20% de la electricidad nacional. Estos problemas son el resultado predecible de concentrar una enorme cantidad de computación en un pequeño número de lugares, pero el problema de los megavatios es más manejable cuando no es necesario resolverlo en un solo lugar.
Las implementaciones perimetrales, al distribuir las cargas de trabajo en muchas ubicaciones más pequeñas, distribuyen la demanda de energía de una manera que se alinea mejor con la capacidad de red disponible.
Nada de esto significa que la infraestructura a hiperescala vaya a desaparecer. Las cargas de trabajo de capacitación, el procesamiento de datos a gran escala y muchas aplicaciones empresariales seguirán ejecutándose de manera eficiente en entornos de nube centralizados.
El argumento a favor del borde no está en contra de la nube, sino más bien en hacer coincidir la arquitectura de la infraestructura con lo que las cargas de trabajo realmente necesitan.
Los ingenieros que construyeron redes P2P entendieron que distribuir inteligencia a través de la red la hacía más fuerte, no más débil.
A medida que la inferencia empuja a la IA fuera del centro de datos y hacia los lugares donde realmente operan las empresas, esta lección vuelve a ser cada vez más relevante.
Clasificamos y revisamos el mejor software de respaldo.
Este artículo fue elaborado como parte del Perspectivas profesionales de TechRadarNuestro canal muestra las mejores y más brillantes mentes del sector tecnológico actual.
Las opiniones expresadas aquí son las del autor y no son necesariamente las de TechRadarPro o Future plc. Si está interesado en contribuir, obtenga más información aquí: https://www.techradar.com/pro/perspectives-how-to-submit
















