Meta’s Llama ha memorizado enormes porciones de Harry Potter

El modelo de llama de Meta ha memorizado Harry Potter y la piedra del hechicero tan bien que puede reproducir extractos literales del 42 por ciento del libro, según un nuevo estudio.
Investigadores de la Universidad de Stanford, Cornell y West Virginia analizaron docenas de libros del ahora infamous Conjunto de datos de libros3una colección de libros pirateados utilizados para entrenar a los modelos de Llama de Meta. Books3 también está en el centro de una demanda por infracción de derechos de autor contra Meta, Kadrey v. Meta Platforms, Inc. Los autores del estudio dicen que sus hallazgos podrían tener importantes implicaciones para las compañías de IA que enfrentan demandas similares.
Según el artículo de investigación, el modelo LLAMA 3.1 “memoriza algunos libros, como Harry Potter y 1984casi por completo. “Específicamente, el estudio encontró que LLAMA 3.1 ha memorizado el 42 por ciento del primer libro de Harry Potter tan bien que puede reproducir extractos literales al menos el 50 por ciento del tiempo. En general, Llama 3.1 podría reproducir extractos del 91 por ciento del libro, aunque no tan consistente.
“El alcance de la memorización literal de libros del conjunto de datos Books3 es más significativo de lo que se describió anteriormente”, dijo el artículo. Pero los investigadores también descubrieron que “la memorización varía ampliamente de un modelo a otro y de un libro a otro dentro de cada modelo, así como variando en diferentes partes de libros individuales”. Por ejemplo, el estudio estimó que LLAMA 3.1 solo memorizó el 0.13 por ciento de Sandman Slim Por Richard Kadrey, uno de los demandantes principales en la demanda de derechos de autor de acción de clase contra Meta.
Entonces, si bien algunos de los hallazgos del periódico parecen condenatorios, no lo llamen una pistola fumadora para los demandantes en Casos de infracción de derechos de autor de IA.
Velocidad de luz mashable
“Estos resultados dan a todos en el debate de los derechos de autor de la IA algo sobre lo que aferrarse”, “, escribió Periodista Timothy B. Lee en su entendimiento Boletín AI. “Resultados divergentes como estos podrían poner en duda si tiene sentido agrupar a JK Rowling, Richard Kadrey y miles de otros autores juntos en una sola demanda masiva. Y eso podría funcionar a favor de Meta, ya que la mayoría de los autores carecen de los recursos para presentar demandas individuales”.
¿Por qué Llama puede reproducir algunos libros más que otros? “Sospecho que la diferencia se debe a que Harry Potter es un libro mucho más famoso. Es ampliamente citado y estoy seguro de que los extractos sustanciales de él en sitios web de terceros se encontraron en los datos de capacitación en la web”, dijo James GrimmelmannProfesor de Derecho Digital y de Información en la Universidad de Cornell, quien fue citado en el documento.
Lo que esto también muestra, dijo Grimmelmann, es que “las compañías de IA pueden tomar decisiones que aumentan o reducen la memorización. No es una característica inevitable de la IA; tienen control sobre ella”.
Meta y otras compañías de IA han argumentado que el uso de trabajos con derechos de autor para capacitar a sus modelos está protegido bajo uso justo, una doctrina legal compleja. Sin embargo, el alcance de la memorización podría complicar esos argumentos.
“Sí, creo que la probabilidad de que los LLM estén memorizando más de lo que se creía anteriormente cambia el análisis de derechos de autor”. Robert Brauneisun profesor de la Facultad de Derecho de la Universidad George Washington, dijo en un correo electrónico a Mashable. Llegó a la conclusión de que los hallazgos del estudio podrían debilitar en última instancia el argumento de uso justo de Meta.
Le pedimos a Meta para hacer comentarios sobre los hallazgos del estudio, y actualizaremos este artículo si recibimos una respuesta.
Divulgación: Ziff Davis, empresa matriz de Mashable, presentó en abril una demanda contra OpenAI, alegando que infringió los derechos de autor de Ziff Davis en la capacitación y la operación de sus sistemas de IA.
Temas
Inteligencia artificial
Meta