
Ay dios mío. Dado que los sistemas de “IA” causan tantos problemas en casi todas partes, es una mierda que una de las empresas de tecnología más importantes del mundo promueva activamente la piratería. Pero parece que eso es exactamente lo que sucedió, con una publicación alojada en el blog de desarrolladores de Microsoft utilizando activamente un conjunto aparentemente pirateado de harry potter Novelas para entrenar un sistema de “IA” basado en Azure.
“La serie de Harry Potter, escrita por J.K. Rowling, es una colección mundialmente querida de siete libros que siguen el viaje de un joven mago, Harry Potter, y sus amigos mientras luchan contra las fuerzas oscuras lideradas por el malvado Voldemort”, escribió Pooja Kamath, gerente senior de productos de Microsoft. La publicación del blog apuntaba a un enlace del conjunto de datos de Kaggle que contenía siete archivos TXT, que aparentemente abarcaban todo el mundo. entero Serie de novelas publicadas.
La publicación del blog era una guía sobre cómo agregar “IA” generativa a aplicaciones a través de Azure. El gerente dijo que podría usarse para crear un sistema de preguntas y respuestas o generar automáticamente harry potter ficción de fans. “Esta característica seguramente deleitará a los Potterheads, permitiéndoles explorar nuevas aventuras y crear sus propias historias mágicas”. Termina con una imagen generada por LLM de dos niños en un tren, obviamente caricaturas de Harry Potter y Ron Weasley, con un logotipo de Microsoft entre ellos.
Se trata, en términos técnico-jurídicos, de una gran maldito no-no. Todo harry potter Las novelas, por supuesto, tienen derechos de autor de varias entidades de todo el mundo, incluido el autor. Una búsqueda rápida en Amazon muestra que una colección completa cuesta $70 en formato de libro electrónico al momento de escribir este artículo. Alojar o descargar archivos de forma gratuita sin pagar ningún tipo de regalías es un delito básicamente en todas partes. Sí, eso incluye descargarlo, incluso si todo lo que pretende hacer es conectarlo a un modelo de lenguaje grande.
La publicación instructiva original de Microsoft se publicó a fines de 2024 y se eliminó del sitio (aunque todavía es accesible a través del archivo de Internet). Lo mismo ocurre con el Conjunto de datos de Kaggleque fue marcado erróneamente como “dominio público” y descargado sólo unas 10.000 veces, según un informe de Ars Technica. Tanto la publicación del blog como el conjunto de datos pirateado parecen haber pasado desapercibidos durante un año y medio. incluso un hilo de Hacker News ayer les atrajo nueva atención.
Es impactante que un gerente de Microsoft sea tan casual acerca de la piratería de libros electrónicos en una publicación pública en un blog de Microsoft (aunque Kamath puede no entender cómo funciona el sistema de dominio público y asumir que los archivos fueron marcados correctamente). Pero los modelos de lenguajes grandes más populares se entrenaron en millones de libros electrónicos, muchos de los cuales (posiblemente incluso la mayoría) se descargaron mediante piratería ilegal.
Los demandantes presentaron demandas contra Meta/Facebook, OpenAI, Nvidia, Alphabet/Google, Anthropic, Microsoft y otros, buscando detener la capacitación sobre obras protegidas por derechos de autor y/o buscar remuneración por libros ya incorporados a la capacitación LLM sin permiso. Los resultados iniciales en los tribunales han sido mixtos, a veces consideran que los resultados de los modelos de capacitación son “transformadores” y, por lo tanto, sustancialmente diferentes de los datos principales, es decir, uso legítimo, y algunos concluyen que los actos iniciales de piratería aún deben ser procesados.














