Se podría engañar a los principales modelos de IA del mundo para que generen copias casi textuales de las novelas más vendidas, lo que plantea nuevas preguntas sobre la afirmación de la industria de que sus sistemas no almacenan obras protegidas por derechos de autor.

Una serie de estudios recientes han demostrado que los grandes modelos de lenguaje de OpenAI, Google, Meta, Anthropic y xAI memorizan muchos más datos de entrenamiento de lo que se pensaba anteriormente.

Expertos legales y en IA dijeron al Financial Times que esta capacidad de “memorización” podría tener serias ramificaciones en la batalla de los grupos de IA contra docenas de demandas por derechos de autor en todo el mundo, ya que socava su defensa central de que los LLM “aprenden” de obras protegidas por derechos de autor, pero no lo hacen. almacenar copias.

“Existe una creciente evidencia de que la memorización es más importante de lo que se creía anteriormente”, afirmó Yves-Alexandre de Montjoye, profesor de matemáticas aplicadas e informática en el Imperial College de Londres.

Los grupos de IA han argumentado durante mucho tiempo que la memorización no ocurre. en un carta 2023 Google dijo a la Oficina de Derechos de Autor de EE. UU. que “no hay ninguna copia de los datos de entrenamiento, ya sean textos, imágenes u otros formatos, presentes en el modelo en sí”.

La industria de la IA también afirma que los modelos de entrenamiento en libros protegidos por derechos de autor son “uso legítimo”, argumentando que la tecnología transforma el trabajo original en algo significativamente nuevo.

pero uno estudiar publicado el mes pasado mostró que investigadores de las universidades de Stanford y Yale pudieron estimular estratégicamente a los LLM de OpenAI, Google, Anthropic y xAI para generar miles de palabras de 13 libros, incluidos Un juego de tronos, Los juegos del hambre y El hobbit.

Al pedir a los modelos que completaran oraciones de un libro, Gemini 2.5 regurgitó el 76,8% de las Harry Potter y la piedra filosofal con altos niveles de precisión, mientras que Grok 3 generó un 70,3 por ciento.

También pudieron extraer casi toda la novela “casi palabra por palabra” de Claude Sonnet 3.7 de Anthropic, desbloqueando la plantilla, donde los usuarios pueden hacer que los LLM ignoren sus salvaguardas.

Se basa en un estudio del año pasado que encontró que los modelos “abiertos” como Llama da Meta memorizan grandes fragmentos de libros específicos en sus datos de entrenamiento.

Anteriormente, los expertos en IA no estaban seguros de si los modelos cerrados, que tienden a tener más salvaguardas que evitan que los modelos generen contenido no deseado, también serían propensos a la memorización a gran escala.

“Fue una sorpresa que pudieran memorizar textos completos” a pesar de las barreras protectoras, dijo A. Feder Cooper, investigador de la Universidad de Yale que participó en el estudio.

Los investigadores aún no han descubierto por qué los LLM memorizan cosas que aparecen en sus datos de capacitación. Tampoco está claro qué parte de los datos de entrenamiento son evidentes en los resultados que genera.

Esta funcionalidad de memorización también podría tener graves implicaciones en otros sectores, como la sanidad y la educación, donde la filtración de cualquier dato de formación podría dar lugar a privacidad y cuestiones de confidencialidad.

Los expertos legales dijeron que esto podría crear una responsabilidad significativa para los grupos de IA con respecto a la infracción de derechos de autor, así como ramificaciones en la forma en que las empresas de IA entrenan sus modelos y los costos de desarrollarlos.

Los hallazgos de la investigación “pueden plantear un desafío para quienes argumentan que el modelo de IA no almacena ni reproduce ninguna obra protegida por derechos de autor”, dijo Cerys Wyn Davies, socio de propiedad intelectual del bufete de abogados Pinsent Masons.

El hecho de que los modelos de IA memoricen o no sus datos de entrenamiento ha sido un factor importante en las recientes batallas legales sobre derechos de autor.

Un tribunal de EE. UU. concluyó el año pasado que la capacitación de Anthropic para LLM sobre algunos contenidos protegidos por derechos de autor podría considerarse uso legítimo, ya que se consideraba “transformador”.

Pero dictaminó que el almacenamiento de obras pirateadas era una “infracción inherente e irremediable”, lo que llevó al grupo IA a pagar 1.500 millones de dólares para resolver el proceso.

En Alemania, una sentencia de noviembre del año pasado concluyó que OpenAI había infringido los derechos de autor porque su modelo había memorizado las letras de las canciones. El caso, presentado por GEMA, una asociación que representa a compositores, letristas y editores, fue considerado una decisión histórica en la UE.

Rudy Telscher, socio del bufete de abogados Husch Blackwell, dijo que reproducir un libro completo sin jailbreak es “claramente una violación de los derechos de autor”. Pero “es una cuestión de si esto está sucediendo lo suficiente como para [AI models] podría ser indirectamente responsable de la infracción”, añadió.

Anthropic dijo que la técnica de jailbreak utilizada en la investigación de Stanford y Yale no era práctica para los usuarios normales y requeriría más esfuerzo para extraer el texto que simplemente comprar el contenido.

La compañía también agregó que su modelo no almacena copias de conjuntos de datos específicos, sino que aprende de patrones y relaciones entre palabras y cadenas en sus datos de entrenamiento.

xAI, OpenAI y Google no respondieron a las solicitudes de comentarios.

El hecho de que los laboratorios de IA hayan implementado salvaguardas para evitar la extracción de datos de entrenamiento significa que son conscientes del problema, dijo de Montjoye de Imperial.

Ben Zhao, profesor de informática en la Universidad de Chicago, cuestionó si los laboratorios de IA realmente necesitaban utilizar contenido protegido por derechos de autor en el entrenamiento de datos para crear modelos de vanguardia.

“Si el resultado técnico se puede lograr o no, todavía es una cuestión de si debemos hacerlo”. Dijo Zhao. “La parte legal debería finalmente defender su posición y ser realmente el árbitro en todo este proceso”.

Fuente