Cuando Amrith Chenava comenzó a experimentar con grandes modelos de lenguaje poco después de lanzar ChatGPT, rápidamente se dio cuenta de que Tulu (el idioma que hablan él y alrededor de dos millones de personas en el estado de Karnataka, en el sur de la India) prácticamente no tenía ningún conjunto de datos digitales. Decidió construir uno.
Shinava, licenciado en informática por la Universidad Estatal de Kent en Ohio, había lanzado anteriormente una aplicación de traducción y una aplicación de aprendizaje de idiomas para Tulu. Para construir el conjunto de datos para el LLM, tuvo que recopilar datos de audio y texto de hablantes nativos, incluidos profesores, profesionales, amas de casa y miembros de la diáspora de Tulu.
“La mayoría de los sistemas de IA se construyen en Estados Unidos. No entienden los idiomas ni los contextos indios”, dijo Shenava, de 27 años, fundador de interésel dijo resto del mundo. “Necesitamos nuestros propios modelos a seguir”.
India tiene más de 1.600 idiomas y dialectos, pero la mayoría de los sistemas de inteligencia artificial se adaptan a esos idiomas y dialectos. hablar ampliamente. ChatGPT de OpenAI admite más de una docena de idiomas indios, incluidos hindi, tamil y kannada, que es el idioma dominante de Karnataka. Google Gemini puede chatear con usuarios en nueve Lenguas indias.
Animadas por su éxito y ansiosas por ser parte del rápido cambio global hacia la inteligencia artificial, un puñado de nuevas empresas indias están creando herramientas de inteligencia artificial para los llamados lenguajes de bajos recursos como el tulu, el bodo y el cachemiro, que tienen una presencia en línea limitada y pocos registros escritos. Las empresas emergentes tienen que crear conjuntos de datos casi desde cero.
TuluAI organiza sesiones de narración de cuentos y talleres en zonas rurales, donde la población local, especialmente mujeres y ancianos, cuenta sus historias o se les pide que lean textos y simulen conversaciones cotidianas. A los participantes se les enseña a registrar y etiquetar datos. Cada taller de uno o dos días produce más de 150 horas de datos de texto y audio etiquetados, dijo Shinava.
Las principales herramientas de traducción pasan por alto el contexto que da significado a las palabras.
La startup también recopila notas de audio de WhatsApp de cualquiera que quiera enviar una, y los comentaristas verifican la precisión de los textos y las etiquetas.
“A las principales herramientas de traducción les falta el contexto que da significado a las palabras”, dijo Shinava. “La única forma de solucionar este problema es utilizar datos auténticos registrados por humanos que reflejen el uso del lenguaje en la vida real”. “El objetivo es que el modelo hable como un hablante nativo. Queremos que comprenda el humor, las expresiones y el contexto cultural. Así que estamos construyendo poco a poco, comprobando cada muestra”.
En todo el país, en el estado nororiental de Assam, Kapyanil Talukdar, cofundador de Aakhor AI, de 25 años, sigue un proceso similar de creación de conjuntos de datos en bodo y asamés. El equipo de Talukdar lleva a cabo talleres y clases comunitarios, y realiza campañas de notas de voz a través de grupos de WhatsApp, con sencillas indicaciones diarias como “Habla sobre el té de la mañana”.
Cada envío está etiquetado con metadatos como dialecto, región y datos demográficos del hablante para garantizar la diversidad. Los clips, que tienen una duración de entre 20 y 60 segundos, se procesan, transcriben y anonimizan. Cada campaña de tres meses produce más de 5.000 muestras de audio, dijo Talukdar. resto del mundo.
“Cuando la gente ve que sus votos ayudan a preservar su idioma, sienten un sentimiento de pertenencia”, dijo. “Están motivados por el objetivo común de crear una inteligencia artificial que comprenda y hable su lengua materna”.
Los principales MBA en tecnología, como GPT y Meta’s Llama, están capacitados en una amplia gama de datos, incluidos otros idiomas además del inglés. Sin embargo, su desempeño en lenguajes de bajos recursos puede ser tan ImprevisibleEspecialmente en dialectos y expresiones locales. Los países están deseosos de apoyar y convertirse en sus idiomas. Autosuficiencia en inteligencia artificial ellos mismos se construyen Maestría en Derecho Plurilingüeque puede admitir traducción, reconocimiento de voz, herramientas de servicio al cliente, educación, atención médica, etc. Otras aplicaciones.
Entre ellos se encuentran los liderados por Chile. LatamGPT Proyecto del sudeste asiático SelloY los esfuerzos realizados Masakhani – Una organización de base que tiene como objetivo crear conjuntos de datos y herramientas de inteligencia artificial en idiomas africanos. India BharatGPT y sarvam Admite varios idiomas indios importantes y el gobierno está creando modelos de código abierto para varios idiomas dentro del marco. bhashini proyecto.
No es fácil.
La antigua escritura Tulu carece del estándar Unicode que permite la manipulación algorítmica del texto. El equipo de Shinava digitaliza la literatura escrita y entrena el modelo para reconocer patrones. El proceso, aunque más complejo, ayuda a capturar matices culturales que a menudo se pierden en la traducción, afirmó.
Estos idiomas ya están marginados y, sin una representación digital adecuada, corren el riesgo de desaparecer por completo de los espacios en línea.
El equipo evita los datos generados por IA o traducidos automáticamente, que a menudo están sobrecargados de información. Errores gramaticalesDijo, palabras y frases inventadas y otras falacias.
“Incluso los modelos de código abierto producen texto sin sentido. Por eso decidimos construirlo desde cero”, dijo Shinava. Esto también garantiza que los datos se utilicen de forma ética, afirmó. “No utilizamos ningún dato personal sin permiso expreso”.
Los modelos de IA de Aakhor dan prioridad a la voz y se dirigen a áreas con baja alfabetización y acceso deficiente a Internet. Talukdar dijo que la compañía recluta hablantes de áreas subrepresentadas para evitar que los dialectos dominantes abrumen a los dialectos más pequeños y para garantizar un “muestreo equilibrado”.
Para Sakleen Yusuf, fue el temor a la desaparición del Kashmiri (un idioma hablado por alrededor de 7 millones de personas en la India) lo que lo impulsó a crear una aplicación KashmiriGPT utilizando la API OpenAI.
La plataforma acepta entradas en inglés y en escritura romana de Cachemira, y genera respuestas en escritura romana de Cachemira, escritura romana de Cachemira e inglés.
“Nuestra lengua es débil y está en peligro de extinción”, afirma el joven de 25 años. “Así que tomé el asunto en mis propias manos”. resto del mundo. “Esto ayudará a sostener a los habitantes de Cachemira en la era de la inteligencia artificial”.
dijo C. VanLomboya, investigador independiente en lenguaje e inteligencia artificial, dice que Youssef tiene razón al estar preocupado resto del mundo.
“Estas lenguas ya están marginadas y, sin una representación digital adecuada, corren el riesgo de desaparecer por completo de los espacios en línea”, afirmó.
Según Vanlaumbuya, la IA está facilitando la preservación del idioma a través de herramientas de traducción, sistemas de transcripción y conjuntos de datos que pueden hacer que el idioma sea más claro y accesible. Añadió que la falta de recursos y financiación digitales es un desafío, y los esfuerzos liderados por la comunidad son una forma de sostener las plataformas.
No competimos con GPT a gran escala. “Estamos compitiendo por la relevancia”.
También lo son las plataformas de inteligencia artificial de las grandes empresas tecnológicas ricas, incluidas OpenAI, Google y Perplexity. Apuntando a la India. El país ya es el mercado más grande para ChatGPT fuera de EE. UU. y OpenAI este mes. yo ofrecí ChatGPT Go es gratuito durante un año para los usuarios de la India.
Aakhor AI se da cuenta del desafío que enfrenta. “No estamos compitiendo con GPT a gran escala”, afirmó Talukdar. “Estamos compitiendo por la relevancia”.
Al obtener datos desde el terreno, la comunidad participa en la preservación de la diversidad lingüística y la promoción de la inclusión lingüística, dijo Shinava.
“Cualquiera puede contribuir. Así se preservará la lengua”, afirmó. “Si la IA puede ayudar a mantenerlos con vida, valdrá la pena el esfuerzo”.
Para Rita D’Souza, maestra de escuela primaria de 32 años en el estado costero de Karnataka, dijo que TuluAI ya está marcando la diferencia, ayudando a los estudiantes a mejorar la pronunciación y la ortografía. resto del mundo.
















