Los modelos de lenguaje a gran escala se crean extrayendo texto e imágenes de la web. Pero como los sistemas de inteligencia artificial van más allá de los chatbots, quieren datos de entrenamiento que nunca se hicieron públicos en primer lugar. ¿Datos bloqueados o dispersos o no tienes ninguno?
Su escape digital ahora está monetizado.
La mayoría de la gente piensa que la información personal es números de Seguro Social y registros médicos. Pero casi todo lo que haces en línea genera datos que la plataforma recopila y utiliza: los tuyos. Spotify Historial de escucha $SPOT Tus documentos en formato de correo electrónico que escribes Google $GOOGL Docs Tus conversaciones con ChatGPT
Nada se puede copiar públicamente. Todo esto es legalmente tuyo.
La escala es muy grande. Versión de recopilación de datos generales, que es el conjunto de datos de entrenamiento. Meta Llama 3 de $META tiene aproximadamente 15 billones de palabras extraídas de la Internet pública. Si 100 millones de personas participaran cada una en las exportaciones de datos desde solo cinco plataformas, se obtendrían 450 billones de tokens. Esto es 30 veces mayor que cualquier conjunto de datos existente.
“Gran parte del temor en torno a la IA proviene de la falta de atribución y economía adecuadas”, dijo Kazlauskas. “Si enseñas a la IA a hacer tu trabajo, deberías ser dueño de ese modelo de IA”.
El problema es que los datos aéreos están dispersos. Provienen de diferentes contratistas con diferentes sensores y diferente precisión. Esto hace que sea casi imposible entrenar modelos espaciales fiables. Las imágenes de satélite cubren incluso la mayor parte del mundo. Pero todavía le falta granularidad. La capa de datos que necesitan las empresas de IA aún no existe.
Spexi está trabajando con empresas como Niantic para entrenar modelos geoespaciales a gran escala para realidad aumentada y robótica. A diferencia de los modelos lingüísticos, estos deben actualizarse continuamente a medida que aumentan los edificios y cambian las carreteras. Es una versión del mismo problema que ChatGPT y otros LLM: cómo mantener los modelos actualizados sin volver a entrenarlos desde cero. El equipo de Lakeland está trabajando en un algoritmo para predecir cuándo y dónde se necesitan actualizaciones. Pero sigue siendo un desafío de investigación sin resolver.
La empresa de Dharmapurikar ayuda a varias organizaciones a transformar datos heredados en conjuntos de datos estructurados y contextuales. Están diseñados para preguntas comerciales específicas. En lugar de utilizar el almacenamiento general Hace una década, las empresas comenzaron a rastrear todo y almacenarlo en la nube. Se supone que la recopilación de datos eventualmente proporcionará información. En cambio, crea un panorama de datos costoso, aislado y no administrado.
La realidad es más complicada. Las empresas necesitan cuatro cosas: Amplia calidad de los datos. Capacidad para rastrear linajes y explicar cómo se llegó a las conclusiones. Gobernanza para prevenir alucinaciones de IA y metadatos semánticos que crean un contexto empresarial: el valor de vida de un cliente minorista será diferente al de un cliente empresarial, por ejemplo, sin ese contexto. El modelo hará inferencias incorrectas.











