Las matemáticas ocultas de la IA: por qué sus facturas de GPU no se suman

Hay un cálculo que todo ejecutivo de IA debe saber de memoria, pero la mayoría nunca lo ha hecho: una GPU local servidor Costos aproximadamente lo mismo que de seis a nueve meses de alquiler de capacidad de nube equivalente.
Dado que el hardware generalmente funciona durante tres o cinco años, las matemáticas son marcadas, pero de alguna manera esto no es un conocimiento común en las salas de juntas que toman decisiones de infraestructura de millones de libras.
El problema proviene de un desajuste fundamental entre cómo pensamos sobre los costos de IA y cómo se acumulan realmente. El gasto operativo sobre el modelo de gasto de capital se siente intuitivo cuando paga a medida que avanza, escala según sea necesario y evite grandes compromisos iniciales.
Pero las cargas de trabajo de IA rompen estos supuestos de manera que hace que la economía de la nube tradicional sea engañosa.
Director de SaaS e infraestructura en Speechmatics.
Lo que la nube no te está diciendo
Por ejemplo, alquilar un solo Nvidia La instancia de GPU de H100 de un proveedor de nubes hiperscaler puede costar alrededor de $ 8/hora, o más de $ 5500 por mes. Más de 12 meses, eso es más de $ 65,000.
Por el contrario, la compra de hardware equivalente directamente podría costar alrededor de $ 30,000 a $ 35,000, con tres a cinco años de vida utilizable. Agregue energía, enfriamiento y mantenimiento y aún así saldrá adelante después de solo 6 a 9 meses de uso. Además, eres dueño del hardware para que no tengas que devolverlo después de 12 meses.
Pero la jerarquía de precios es más compleja de lo que parece. Mientras que los proveedores de Neocloud como Fluidstack ofrecen H100 a esa tarifa de $ 2/hora, los hiperscalers cobran más cerca de $ 8/hora, lo que hace que el caso local sea aún más fuerte.
La comparación del mundo real se vuelve más difícil de ignorar cuando considera las implementaciones reales: 8xH100 sistemas de Dar a luz o Supermicro cuesta alrededor de $ 250,000, versus $ 825,000 por tres años de capacidad hiperscalera equivalente (incluso con precios reservados). Los propios sistemas DGX de NVIDIA tienen un marcado de 50-100% sobre estos precios ya sustanciales.
Los números faltantes en la mayoría de las conversaciones de presupuesto de IA representan ahorros reales, no teóricos. El problema se compone cuando examina casos de uso específicos.
Considere las carreras de entrenamiento. Mayoría Proveedores de nubes Solo garantiza el acceso a grandes grupos de GPU si reserva la capacidad durante un año o más. Si su entrenamiento solo necesita dos semanas, todavía está pagando por los otros 50.
Mientras tanto, las demandas de inferencia crean su propio rompecabezas matemáticos. Precios basados en el token para modelos de idiomas grandes Los costos de los medios fluctúan con la imprevisibilidad de los modelos mismos, haciendo que el pronóstico del presupuesto se sienta más como la predicción del clima que la planificación financiera.
Elasticidad, pero con letra pequeña
La promesa de la nube de escala elástica se siente a medida para la IA, hasta que se dé cuenta de que la escala está limitada por los límites de las cuotas, la disponibilidad de GPU y la imprevisibilidad de costos. Lo que es elástico en teoría a menudo requiere reserva previa en la práctica y en efectivo por adelantado para hacer que los costos sean aceptables.
Y una vez que su uso crece, los descuentos vienen con compromisos de varios años que reflejan la nube de modelos CAPEX debían reemplazar.
No es que la nube no sea escalable. Es que la versión de los equipos de AI de escala necesita (cómputo rentable, de alto rendimiento y ruptura) no siempre es lo que se ofrece.
La ironía es más profunda que el precio. La flexibilidad del mercado de los proveedores de la nube como su propuesta de valor central, sin embargo, las cargas de trabajo de IA, que son las aplicaciones más exigentes computacionalmente de nuestro tiempo, a menudo requieren los arreglos menos flexibles.
Se suponía que las reservas a largo plazo, la planificación de la capacidad y las cargas de referencia predecibles comienzan a parecerse a los ciclos de adquisición de TI tradicionales que se suponía que la computación en la nube debía eliminar. La revolución se vuelve circular.
Costos ocultos, fricción visible
La complejidad oculta surge en los detalles. Los equipos que se preparan para los picos de uso a menudo reservan más capacidad de la que usan, pagando por el cálculo inactivo “por si acaso”.
Migración de datos Entre los proveedores pueden consumir cantidades no triviales de tiempo de ingeniería, lo que representa un costo de oportunidad que rara vez aparece en los presupuestos de infraestructura, pero afecta significativamente a los equipos pequeños y limitados por el tiempo.
Estos costos de oportunidad se agotan con el tiempo. Cuando los equipos cambian entre proveedores de la nube, impulsados por los cambios de precios, actuación Problemas o necesidades de cumplimiento, a menudo enfrentan semanas de reescrituras, re-optimizaciones y revalidaciones.
No es solo el Infraestructura Eso cambia, pero todo el código que lo administra, la experiencia interna en ese proveedor desaparece y la tubería de implementación debe reescribirse. Para los equipos Lean, esto puede significar actualizaciones retrasadas de productos o ventanas de mercado perdidas, que rara vez se tienen en cuenta en la factura principal de GPU.
Quizás lo más sorprendente, la carga operativa de gestionar la infraestructura en las instalaciones se ha exagerado sistemáticamente. A menos que esté operando a escala extrema, la complejidad es completamente manejable a través de la experiencia interna o a través de proveedores de servicios administrados.
La diferencia es que esta complejidad es visible y planificada, en lugar de ocultar las facturas mensuales que fluctúan de manera impredecible.
Del presupuesto a la estrategia
Las empresas inteligentes están adoptando cada vez más enfoques híbridos que juegan con las fortalezas de cada modelo de infraestructura. Utilizan hardware propiedad para cargas de referencia predecibles como la inferencia de estado estacionario que forma la columna vertebral de su servicio.
Los recursos en la nube manejan los picos: variaciones de hora del día, sobretensiones de la campaña de clientes o cargas de trabajo experimentales donde el precio spot puede suavizar el golpe.
Las empresas que adoptan este enfoque se han visto más allá del pensamiento anti-nube hacia la ingeniería financieramente alfabetizada.
La nube sigue siendo invaluable para la experimentación rápida, la escala geográfica y las cargas de trabajo genuinamente impredecibles. Pero tratarlo como la opción predeterminada para toda la infraestructura de IA ignora la realidad matemática de cómo se utilizan realmente estos sistemas.
Las empresas que obtienen este cálculo correcto están haciendo más que ahorrar dinero. Están construyendo bases más sostenibles y predecibles para la innovación a largo plazo.
Estas conversaciones no son solo técnicas, son estratégicas. Los CFO pueden favorecer la nube para su línea limpia de Opex, mientras que los ingenieros sienten el dolor de los equipos de Finops que los persiguen desesperadamente para eliminar los recursos a medida que los picos de costos de fin de mes y el mal soporte golpean.
Esa desconexión puede conducir a decisiones de infraestructura impulsadas más por contabilidad convenciones que el rendimiento real o la experiencia del usuario. Las organizaciones que hacen esto correctas son las que las finanzas y la ingeniería se sientan en la misma tabla, revisando no solo el costo, sino el rendimiento, la confiabilidad y la flexibilidad a largo plazo. En AI, alinear las verdades financieras y técnicas es el verdadero desbloqueo.
Comprender estas matemáticas ocultas no solo lo ayudará a presupuestar mejor, se asegurará de construir infraestructura que funcione como la IA realmente lo hace, liberando el espacio de cabeza para centrarse en lo que más importa: construir mejores, más rápidos y más resistentes productos de IA.
Enumeramos la mejor herramienta de gestión de TI.
Este artículo fue producido como parte del canal de Insights Expert de TechRadarpro, donde presentamos las mejores y más brillantes mentes de la industria de la tecnología en la actualidad. Las opiniones expresadas aquí son las del autor y no son necesariamente las de TechRadarpro o Future PLC. Si está interesado en contribuir, obtenga más información aquí: https://www.techradar.com/news/submit-your-story-to-techradar-pro