Si estás hablando con un robot de IA en un idioma africano, probablemente no te entenderá. Si puede reunir una respuesta, estará llena de errores. Este es un problema existencial de la IA que todos en África están tratando de resolver. Y ahora Google se ha sumado a la causa.

El 3 de febrero, Google lanzó WAXAL, un conjunto de datos para 21 idiomas africanos, incluidos el acholi, el hausa, el luganda y el yoruba.

“Este conjunto de datos, que toma su nombre de la palabra wolof que significa ‘hablar’, se ha desarrollado durante tres años para empoderar a los investigadores e impulsar el desarrollo tecnológico inclusivo en toda África”. Google dijo en un blog.

Si bien WAXAL facilitará la creación de productos de inteligencia artificial que comprendan los idiomas africanos, representa un paso poco común hacia la soberanía digital: el conjunto de datos es propiedad de los socios africanos que trabajaron en el proyecto, no de Google.

“WAXAL es un logro colaborativo, respaldado por la experiencia de las principales organizaciones africanas que fueron socios clave en la creación de este conjunto de datos”, dijo Google. “Este marco garantiza que nuestros socios conserven la propiedad de los datos que han recopilado, mientras trabajan con nosotros para lograr el objetivo común de poner estos recursos a disposición de la comunidad investigadora global”.

Los socios africanos de Google en este proyecto incluyen la Universidad Makerere en Uganda, la Universidad de Ghana, la empresa de inteligencia artificial y datos abiertos Digital Umuganda en Ruanda y el Instituto Africano de Ciencias Matemáticas, entre otros.

El éxito reside en la propiedad local”.

“La escasez de corpus de voz de alta calidad y con licencia permisiva ha sido históricamente un importante cuello de botella para todos”, afirmó Abdallah Diack, director de proyectos de investigación de Google AI. resto del mundo. “El éxito reside en la propiedad local [this] Ciclo de innovación”.

La propiedad de los datos se ha convertido en uno de los puntos de discordia más importantes relacionados con el auge global de la inteligencia artificial. Durante muchos años, las empresas de tecnología de Estados Unidos y China han controlado enormes cantidades de datos de todo el mundo. Utilizan estos datos, a veces recopilados sin consentimiento ni compensación explícitos, para entrenar sus modelos de IA.

Ahora, muchos países, especialmente las economías emergentes, están creando marcos para reclamar la propiedad y proteger sus datos almacenándolos dentro de sus fronteras. Con empresas basadas en datos, se espera que usted genere aún más 2 billones de dólares al añoSe ha vuelto cada vez más importante determinar quién posee los datos y quién se beneficia en última instancia de ellos.

WAXAL contiene más de 11.000 horas de datos de voz de casi 2 millones de grabaciones individuales, incluidas aproximadamente 1.250 horas de voz transcrita para reconocimiento automático de voz y más de 20 horas de grabaciones de estudio para síntesis de audio de texto a voz.

Los creadores de WAXAL tomaron la decisión deliberada de publicar los datos bajo una licencia permisiva para permitir la publicación comercial, dijo Diack. Mantenerlo de código abierto ayudaría a los empresarios africanos a evitar a los intermediarios de Silicon Valley para innovar.

Muchas organizaciones locales ya están utilizando WAXAL para diferentes casos de uso, afirmó Diack.

“Ya estamos viendo casos de uso sorprendentes”, afirmó. “La Universidad de Ghana está utilizando los datos en la investigación de la salud materna… Estas instituciones no son sólo recolectoras: ahora son centros de infraestructura de IA”.

El lingüista y experto nigeriano Kola Tobosun dijo que los datos, que están controlados por instituciones africanas y se han convertido en fuente abierta para todos, son una gran base sobre la que construir. resto del mundo.

Google no está solo en esta carrera. microsoft Baza recientemente presentadauna nueva herramienta de medición y canalización para 39 idiomas africanos, que indica un cambio hacia una infraestructura de IA liderada por la comunidad.

La construcción de WAXAL no estuvo exenta de obstáculos. Los idiomas africanos son lingüísticamente ricos y tienen varias capas de contexto, lo que plantea importantes desafíos técnicos para Google y sus socios, dijo Diack.

“La transcripción era nuestra montaña más empinada. Dependemos en gran medida de los departamentos de lingüística de las universidades para navegar por los matices dialectales y las normas ortográficas”, dijo. “En lo que respecta al hardware, capturar sonido con ‘calidad de estudio’ en diversos entornos requiere un verdadero ingenio africano: los socios han diseñado cajas de grabación portátiles hechas por ellos mismos y han utilizado tecnología de cancelación de ruido para garantizar que el audio sea lo suficientemente limpio para los modelos de conversión de texto a voz (TTS) de alta resolución”.

Tobusson teme que estos problemas continúen si el conjunto de datos de audio no se captura perfectamente. “La gente ha señalado que los datos yoruba en la versión de Google carecen de signos diacríticos, lo cual no es óptimo. Los signos diacríticos son un componente crítico del habla yoruba, por lo que su ausencia resultará en una caída significativa en el rendimiento de la conversión de texto a voz”.

Si bien el conjunto de datos captó mucho, la variación significativa en los dialectos en todo el continente sigue siendo un desafío que debe abordarse para garantizar que ninguna comunidad se quede atrás, dijo Diack.

“Actualmente tenemos seis idiomas adicionales en proceso, lo que eleva nuestro total a 27”, dijo. “Sin embargo, nuestra estrategia a largo plazo se centra en la sostenibilidad a través de asociaciones”.

Fuente