La historia hasta ahora:

En la AI Impact Summit, la startup Sarvam AI, con sede en Bengaluru, lanzó dos modelos de lenguaje grande (LLM), que son la base de los sistemas de inteligencia artificial que impulsan servicios como Gemini de Google y ChatGPT de OpenAI. Los dos modelos fueron entrenados en 35 mil millones y 105 mil millones de parámetros, respectivamente, y consumieron menos energía y computación que modelos comparables, al tiempo que demostraron mejoras sobre otros modelos en idiomas indios, dijo Pratyush Kumar, cofundador de Sarvam.

¿Cómo se forman los LLM?

Los LLM están capacitados y operados en grupos de unidades de procesamiento de gráficos (GPU). El coste combinado de las GPU y la electricidad necesaria para hacerlas funcionar el tiempo suficiente para entrenar un modelo asciende a millones de dólares. La base de este proceso son los datos, en gran parte extraídos de Internet, donde el inglés, los idiomas europeos y los idiomas del este de Asia, como el coreano y el japonés, están más ricamente representados que los idiomas indios.

Esto crea un doble desafío para formar un LLM en suelo indio con capital indio: por un lado, con escasas fuentes de datos, muchos LLM se desempeñan peor cuando operan en idiomas indios o queman más “fichas” en inferencia para traducir oraciones al inglés (y traducir las respuestas) para obtener un mejor desempeño. Dado que la traducción automática ha mejorado drásticamente para los idiomas indios, este sigue siendo el estándar de oro para muchos LLM. En segundo lugar, dado que el capital también es escaso, los esfuerzos por formar un LLM por parte de empresas indias dirigidas a usuarios indios pueden ser un desafío, especialmente si no existe un caso de uso comercial inmediato para hacerlo.

Usar las traducciones como punto de apoyo puede ser un desafío para los desarrolladores que buscan aprovechar los LLM locales, como el modelo de 35 mil millones de parámetros de Sarvam, que se mostró en una demostración durante el simposio de investigación de la cumbre trabajando en un teléfono básico, donde un rendimiento subóptimo en idiomas indios puede afectar la adopción y la calidad del rendimiento.

¿Hubo apoyo del gobierno?

La Misión IndiaAI ha subsidiado esfuerzos para llevar a cabo capacitación en India, poniendo en funcionamiento más de 36.000 GPU en centros de datos operados por empresas indias como Yotta y permitiendo a investigadores y nuevas empresas ejecutar cargas de trabajo de capacitación e inferencia a un ritmo relativamente nominal. El gobierno ha dado a Sarvam acceso a 4.096 GPU de su grupo informático común, y el subsidio hasta ahora se estima en casi 100 millones de rupias. La “lista de materiales” para este clúster es de 246 millones de rupias, aunque es probable que otras GPU sigan siendo utilizadas por otros.

El Ministerio de Electrónica y Tecnología de la Información fomentó el desarrollo nacional de LLM por varias razones. La principal de ellas es la creencia de que los LLM desarrollados en el extranjero no pueden encontrar las capacidades o el argumento comercial para desarrollar la capacidad de trabajar bien con lenguas indias. Además, se ha considerado importante fomentar el talento que pueda formar LLM para promover el ecosistema de IA de la India.

Como tal, el anuncio de Sarvam de sus dos modelos es un avance significativo en la propia búsqueda de la India por desarrollar un LLM potente y relativamente económico. Cuando DeepSeek de China desarrolló su LLM R1, toda la industria de la IA adoptó rápidamente sus técnicas, ya que ahorró en costos de capacitación e inferencia sin comprometer la calidad de los resultados. El gobierno buscó generar una ventaja de costos similar.

Kumar de Sarvam dijo que el LLM fue capacitado “desde cero” y que el modelo sería de código abierto. Sin embargo, si bien estuvo disponible en una aplicación llamada Indus, no está disponible en plataformas como Hugging Face, lo que dificulta que los expertos externos analicen las afirmaciones de la empresa.

¿Cuál es la arquitectura del Ministerio de Educación?

Un avance importante para los modelos de IA que buscan funcionar localmente fue la arquitectura de Mezcla de Expertos (MoE). Cuando se publicaron los primeros LLM entrenados en cientos de miles de millones o incluso más de un billón de parámetros, la inferencia generalmente se realizaba “activando” todos los parámetros, lo que encarecía las consultas. Pero un modelo MoE activa sólo una fracción de los parámetros generales de un modelo, lo que hace que se ejecute más rápido y también consuma un menor nivel de recursos computacionales.

Sarvam reconoce que incluso 105 mil millones de parámetros “son significativamente más pequeños que los modelos de frontera que impulsan las aplicaciones de chat de consumidores globales en la actualidad”, y la compañía dice que está “intencionalmente enfocada en la precisión, utilidad, eficiencia y alineación para el contexto indio antes de entrenar modelos fundamentales más grandes”.

Como tal, las respuestas no son tan detalladas como las de las versiones pagas de Gemini o ChatGPT. Esa parte vendrá más tarde, dice Sarvam, cuando tenga las inversiones necesarias para invertir dinero en más capacitación.

Otro LLM desarrollado y capacitado en el clúster informático común fue el de BharatGen, la empresa incubada por el IIT Bombay que pudo entrenar un modelo “multilingüe” de 17 mil millones de parámetros. Este modelo, afirma la empresa, está destinado a sectores como la educación y la sanidad. Gnani.ai, otra empresa, lanzó un pequeño modelo de conversión de texto a voz.

Publicado – 26 de febrero de 2026, 08:30 a. m. IST

Fuente