A kilómetros de distancia, al otro lado del desierto, la Gran Pirámide parece una geometría suave y perfecta: un elegante triángulo que apunta hacia las estrellas. Sin embargo, quédate en la base y la ilusión de suavidad desaparecerá. Ves enormes bloques de piedra caliza irregulares. No es una pendiente; Es una escalera.

Recuerde esto la próxima vez que escuche a los futuristas hablar de crecimiento exponencial.

El cofundador de Intel, Gordon Moore (Ley de Moore), es famoso por decir en 1965 que el número de transistores en un microchip se duplicaría cada año. Otro ejecutivo de Intel, David House, revisó más tarde esta afirmación diciendo que “la potencia informática se duplica cada 18 meses”. Durante un tiempo, las CPU Intel fueron el modelo de esta ley. Es decir, hasta que el crecimiento en el rendimiento de la CPU se aplanó como un bloque de piedra caliza.

Sin embargo, si nos alejamos, el siguiente bloque de piedra caliza ya estaba allí: el crecimiento de la informática simplemente se ha trasladado de las CPU al mundo de las GPU. Jensen Huang, director ejecutivo de Nvidia, jugó a largo plazo y salió ganador, construyendo sus propios peldaños primero con los juegos, luego con la visión por computadora y, recientemente, con la IA generativa.

La ilusión de un crecimiento fluido

El crecimiento de la tecnología está lleno de aceleraciones y estancamientos, y la generación de IA no es inmune. La onda actual está impulsada por la arquitectura del transformador. Para citar al presidente y cofundador de Anthropic, Dario Amodei: “Lo exponencial continúa hasta que deja de hacerlo. Y cada año pensamos: ‘Bueno, no puede ser que las cosas continúen exponencialmente’, y todos los años así es”.

Pero justo cuando la CPU se estancó y las GPU tomaron la delantera, estamos viendo señales de que el crecimiento de los LLM está cambiando los paradigmas nuevamente. Por ejemplo, a finales de 2024, DeepSeek sorprendió al mundo al entrenar un modelo de clase mundial con un presupuesto increíblemente pequeño, en parte utilizando la técnica MoE.

¿Recuerdas dónde viste recientemente mencionada esta técnica? Comunicado de prensa de Rubin de Nvidia: La tecnología incluye “… las últimas generaciones de tecnología de interconexión Nvidia NVLink… para acelerar la inteligencia artificial de la agencia, el razonamiento avanzado y la inferencia del modelo MoE a gran escala a un costo por token hasta 10 veces menor”.

​Jensen sabe que lograr el codiciado crecimiento exponencial en la informática ya no proviene de pura fuerza bruta. A veces es necesario cambiar completamente la arquitectura para colocar el siguiente trampolín.

​La crisis de latencia: dónde encaja Groq

Esta larga introducción nos lleva a Groq.

Los mayores avances en las capacidades de razonamiento de la IA en 2025 fueron impulsados ​​por el “tiempo de inferencia de cálculo” o, en términos sencillos, “dejar que el modelo piense durante un período de tiempo más largo”. Pero el tiempo es dinero. A los consumidores y a las empresas no les gusta esperar.

​Groq entra en escena aquí con su inferencia sobre la velocidad de la luz. Si combina la eficiencia arquitectónica de modelos como DeepSeek y el gran rendimiento de Groq, tendrá inteligencia de vanguardia al alcance de su mano. Al ejecutar la inferencia más rápido, puede “superar” a los modelos competitivos y ofrecer un sistema “más inteligente” a los clientes sin sufrir demoras.

Del chip universal a la optimización de la inferencia

​Durante la última década, la GPU ha sido el martillo universal para todos los clavos de la IA. Utiliza H100 para entrenar el modelo; utiliza H100 (o versiones reducidas) para ejecutar el modelo. Pero a medida que los modelos cambian al pensamiento del “Sistema 2” (donde la IA razona, se autocorrige e itera antes de responder), la carga de trabajo computacional cambia.

El entrenamiento requiere una fuerza bruta paralela masiva. La inferencia, especialmente para los modelos de razonamiento, requiere un procesamiento secuencial más rápido. Debería generar tokens instantáneamente para facilitar cadenas de pensamiento complejas sin que el usuario espere minutos para obtener una respuesta. La arquitectura LPU (Unidad de procesamiento de lenguaje) de Groq elimina el cuello de botella del ancho de banda de la memoria que afecta a las GPU durante la inferencia por lotes pequeños, brindando una inferencia ultrarrápida.

El motor de la próxima ola de crecimiento

Para la C-Suite, esta posible convergencia resuelve la crisis de latencia del “tiempo de reflexión”. Considere las expectativas de los agentes de IA: queremos que reserven vuelos de forma autónoma, codifiquen aplicaciones completas e investiguen precedentes legales. Para hacer esto de manera confiable, es posible que un modelo necesite generar 10.000 “tokens de pensamiento” internos para verificar su propio trabajo antes de enviar una sola palabra al usuario.

  • En una GPU estándar: 10.000 fichas de pensamiento pueden tardar entre 20 y 40 segundos. El usuario se aburre y se marcha.

  • En Groq: Esta misma cadena de pensamientos ocurre en menos de 2 segundos.

Si Nvidia integra la tecnología de Groq, solucionarán el problema de “esperar a que el robot piense”. Conservan la magia de la IA. Así como pasaron del renderizado de píxeles (juegos) al renderizado de inteligencia (generación IA), ahora pasarían al renderizado. razonamiento en tiempo real.

Además, esto crea un formidable foso de software. El mayor obstáculo de Groq siempre ha sido la pila de software; El mayor activo de Nvidia es CUDA. Si Nvidia envuelve su ecosistema alrededor del hardware de Groq, efectivamente cavarán un foso tan ancho que los competidores no podrán cruzarlo. Ofrecerían la plataforma universal: el mejor entorno para formar y el entorno más eficiente para operar (Groq/LPU).

Considere lo que sucede cuando se combina este poder de inferencia en bruto con un modelo de código abierto de próxima generación (como el rumoreado DeepSeek 4): se obtiene una oferta que rivalizaría con los modelos de vanguardia actuales en costo, rendimiento y velocidad. Esto abre oportunidades para Nvidia, desde ingresar directamente al negocio de la inferencia con su propia oferta de nube, hasta continuar impulsando a un número creciente de clientes en crecimiento exponencial.

El siguiente paso en la pirámide

Volviendo a nuestra metáfora inicial: el crecimiento “exponencial” de la IA no es una línea fluida de fracasos brutos; es una escalera de cuellos de botella que se está destruyendo.

  • Bloque 1: No podemos calcularlo lo suficientemente rápido. Solución: La GPU.

  • Bloque 2: No pudimos entrenar lo suficientemente profundo. Solución: Arquitectura transformadora.

  • Bloque 3: No podemos “pensar” lo suficientemente rápido. Solución: Groq LPU.

​Jensen Huang nunca ha tenido miedo de canibalizar sus propias líneas de productos para adueñarse del futuro. Al validar Groq, Nvidia no sólo estaría comprando un chip más rápido; estarían llevando inteligencia de próxima generación a las masas.

Andrew Filev, fundador y director ejecutivo de Zencoder

Fuente