La fiebre del oro de los datos de IA ya está aquí y las empresas estadounidenses están listas.

h2]:texto-3xl pb-8″>

Los modelos de lenguaje a gran escala se crean extrayendo texto e imágenes de la web. Pero como los sistemas de inteligencia artificial van más allá de los chatbots, quieren datos de entrenamiento que nunca se hicieron públicos en primer lugar. ¿Datos bloqueados o dispersos o no tienes ninguno?

h2]:texto-3xl pb-8″>

Su escape digital ahora está monetizado.

La mayoría de la gente piensa que la información personal es números de Seguro Social y registros médicos. Pero casi todo lo que haces en línea genera datos que la plataforma recopila y utiliza: los tuyos. Spotify Historial de escucha $SPOT Tus documentos en formato de correo electrónico que escribes Google $GOOGL Docs Tus conversaciones con ChatGPT

h2]:texto-3xl pb-8″>

La escala es muy grande. Versión de recopilación de datos generales, que es el conjunto de datos de entrenamiento. Meta Llama 3 de $META tiene aproximadamente 15 billones de palabras extraídas de la Internet pública. Si 100 millones de personas participaran cada una en las exportaciones de datos desde solo cinco plataformas, se obtendrían 450 billones de tokens. Esto es 30 veces mayor que cualquier conjunto de datos existente.

h2]:texto-3xl pb-8″>

“Gran parte del temor en torno a la IA proviene de la falta de atribución y economía adecuadas”, dijo Kazlauskas. “Si enseñas a la IA a hacer tu trabajo, deberías ser dueño de ese modelo de IA”.

h2]:texto-3xl pb-8″>

Spexi está trabajando con empresas como Niantic para entrenar modelos geoespaciales a gran escala para realidad aumentada y robótica. A diferencia de los modelos lingüísticos, estos deben actualizarse continuamente a medida que aumentan los edificios y cambian las carreteras. Es una versión del mismo problema que ChatGPT y otros LLM: cómo mantener los modelos actualizados sin volver a entrenarlos desde cero. El equipo de Lakeland está trabajando en un algoritmo para predecir cuándo y dónde se necesitan actualizaciones. Pero sigue siendo un desafío de investigación sin resolver.

h2]:texto-3xl pb-8″>

La empresa de Dharmapurikar ayuda a varias organizaciones a transformar datos heredados en conjuntos de datos estructurados y contextuales. Están diseñados para preguntas comerciales específicas. En lugar de utilizar el almacenamiento general Hace una década, las empresas comenzaron a rastrear todo y almacenarlo en la nube. Se supone que la recopilación de datos eventualmente proporcionará información. En cambio, crea un panorama de datos costoso, aislado y no administrado.

h2]:texto-3xl pb-8″>

La realidad es más complicada. Las empresas necesitan cuatro cosas: Amplia calidad de los datos. Capacidad para rastrear linajes y explicar cómo se llegó a las conclusiones. Gobernanza para prevenir alucinaciones de IA y metadatos semánticos que crean un contexto empresarial: el valor de vida de un cliente minorista será diferente al de un cliente empresarial, por ejemplo, sin ese contexto. El modelo hará inferencias incorrectas.

📬 Regístrese para recibir el resumen diario.

Fuente