Lo que significan dos decisiones judiciales para el futuro de la IA generativa

¿Deberían las empresas tecnológicas tener acceso gratuito a libros y artículos con derechos de autor para capacitar a sus modelos de IA? Dos jueces recientemente nos empujaron hacia una respuesta.
Se han presentado más de 40 demandas contra las compañías de IA desde 2022. Los detalles varían, pero generalmente buscan responsabilizar a estas compañías por robar millones de trabajos con derechos de autor para desarrollar su tecnología. (El atlántico está involucrado en una de esas demandas, contra el coherente de la firma de IA). A fines del mes pasado, hubo decisiones sobre dos de estos casos, primero en una demanda contra antrópico y, dos días después, en uno contra Meta. Ambos casos fueron presentados por autores de libros que alegaron que las compañías de IA habían capacitado modelos de idiomas grandes utilizando el trabajo de los autores sin consentimiento o compensación.
En cada caso, los jueces decidieron que las compañías tecnológicas estaban involucradas en “Uso justo” Cuando entrenaron a sus modelos con los libros de los autores. Ambos jueces dijeron que el uso de estos libros era “transformador”, que capacitar una LLM resultó en un producto fundamentalmente diferente que no compite directamente con esos libros. (Uso justo también protege la exhibición de citas de libros para fines de discusión o crítica).
A primera vista, esto parece un golpe sustancial contra los autores y editores, que se preocupan de que Los chatbots amenazan sus negociostanto por la capacidad de la tecnología para resumir su trabajo como su capacidad para producir un trabajo competidor que podría comer en su mercado. (Cuando se les contactó para hacer comentarios, Anthrope y Meta me dijeron que estaban contentos con las decisiones). Varios medios de comunicación retrataron las decisiones como una victoria para las compañías tecnológicas. Cableado describió los dos resultados como “marca” y “exitoso. “
Pero de hecho, los juicios no son sencillos. Cada uno es específico de los detalles particulares de cada caso, y no resuelven la pregunta de si la capacitación de IA es de uso justo en general. En ciertos puntos clave, los dos jueces no estuvieron de acuerdo entre sí, por lo que, de hecho, que un erudito legal observó que los jueces tenían “marcos conceptuales totalmente diferentes para el problema”. Vale la pena comprender estas decisiones, porque la capacitación de IA sigue siendo un problema monumental y no resuelto, uno que podría definir cómo las compañías tecnológicas más poderosas pueden operar en el futuro, y si la escritura y la publicación siguen siendo profesiones viables.
Entonces, ¿es una temporada abierta en los libros ahora? ¿Alguien puede piratear lo que quiera para entrenar chatbots con fines de lucro? No necesariamente.
Al prepararse para entrenar su LLM, Anthrope descargó una serie de “bibliotecas piratas”, colecciones que comprenden más de 7 millones de libros robados, todos los cuales la compañía decidió mantener indefinidamente. Aunque el juez en este caso dictaminó que la capacitación en sí era de uso justo, también dictaminó que mantener tal “biblioteca central” no era, y para esto, la compañía probablemente enfrentará un juicio que determina si es responsable de miles de millones de dólares en daños. En el caso contra Meta, el juez también dictaminó que la capacitación era de uso justo, pero Meta puede enfrentar más litigios por supuestamente ayudar a distribuir libros pirateados en el proceso de descarga, una característica típica de BitTorrent, el protocolo de intercambio de archivos que la compañía usó para este esfuerzo. (Meta lo ha dicho “Tomó precauciones” para evitar hacerlo.)
La piratería no es el único problema relevante en estas demandas. En su caso contra Anthrope, los autores argumentaron que AI causará una proliferación de títulos de ametralladoras que compiten con sus libros. De hecho, Amazon ya está inundado de libros generados por IA, algunos de los cuales Bear nombres de autores realescreando confusión del mercado y potencialmente robando ingresos de los escritores. Pero en su opinión sobre el caso antrópico, el juez William Alsup dijo que la ley de derechos de autor no debería proteger a los autores de la competencia. “La queja de los autores no es diferente de lo que sería si se quejaran de que capacitar a los escolares para escribir bien resultaría en una explosión de obras competitivas”, escribió.
En su fallo sobre el meta caso, el juez Vince Chhabria no estuvo de acuerdo. Escribió que Alsup había usado una “analogía inaptativa” y estaba “desgastando el factor más importante en el análisis de uso justo”. Debido a que cualquiera puede usar un chatbot para evitar el proceso de aprendizaje a escribir bien, argumentó, la IA “tiene el potencial de multiplicar exponencialmente la expresión creativa de una manera que la enseñanza de personas individuales no lo hace”. A la luz de esto, escribió: “Es difícil imaginar que puede ser de uso justo usar libros con derechos de autor para desarrollar una herramienta para ganar miles de millones o billones de dólares” al tiempo que daña el mercado para el trabajo de los autores.
Para determinar si la capacitación es de uso justo, Chhabria dijo que debemos mirar los detalles. Por ejemplo, los autores famosos pueden tener menos reclamo que los autores prometedores. “Si bien los libros generados por IA probablemente no tendrían mucho efecto en el mercado de las obras de Agatha Christie, podrían evitar que la próxima Agatha Christie se note o venda suficientes libros para seguir escribiendo”, escribió. Por lo tanto, en opinión de Chhabria, algunos demandantes ganarán casos contra las compañías de IA, pero deberán demostrar que el mercado de sus libros particulares ha sido dañado. Debido a que los demandantes en el caso contra Meta no hicieron esto, Chhabria dictaminó contra ellos.
Además de estos dos desacuerdos, el problema es que nadie, incluidos los propios desarrolladores de IA, comprende mucho cómo funcionan los LLM. Por ejemplo, ambos jueces parecían subestimar el potencial de AI para citar directamente el material con derechos de autor a los usuarios. Su análisis de uso justo se basó en las entradas de las LLMS–El texto utilizado para capacitar a los programas, en lugar de resultados que podrían ser infractores. Investigación En modelos de IA como Claude, Llama, GPT-4, y Géminis de Google ha demostrado que, en promedio, del 8 al 15 por ciento de las respuestas de los chatbots en la conversación normal se copian directamente desde la web, y en algunos casos las respuestas se copian 100 por ciento. Cuanto más texte un LLM “memorizado”, más podrá copiar y pegar de sus fuentes de entrenamiento sin que nadie se dé cuenta de que está sucediendo. OpenAi tiene caracterizado Esto como un “error raro” y antrópico, en otro caso, ha argumentado que “Claude no usa sus textos de entrenamiento como una base de datos desde la cual se seleccionan las salidas preexistentes en respuesta a las indicaciones del usuario”.
Pero la investigación en esta área todavía está en sus primeras etapas. A estudiar Publicado esta primavera mostró que Llama puede reproducir mucho más de su texto de entrenamiento de lo que se pensaba anteriormente, incluidas copias casi exactas de libros como Harry Potter y la piedra del hechicero y 1984.
Ese estudio fue coautor de Mark Lemley, uno de los académicos legales más leídos sobre IA y Copyright, y un defensor desde hace mucho tiempo de la idea de que la capacitación de IA es un uso justo. De hecho, Lemley era parte del equipo de defensa de Meta para su caso, pero él abandonar A principios de este año, criticando en una publicación de LinkedIn sobre “Mark Zuckerberg y el descenso de Facebook en la masculinidad tóxica y la locura neonazi”. (Meta no respondió a mi pregunta sobre esta publicación). Lemley se sorprendió por los resultados del estudio y me dijo que “complica el panorama legal de varias maneras para los acusados” en casos de derechos de autor de IA. “Creo que todavía debería ser un uso justo”, me dijo, refiriéndome a la capacitación, pero no podemos aceptar por completo “la historia que los acusados han estado contando” sobre LLM.
Para algunos modelos capacitados con libros con derechos de autor, me dijo: “Se podría argumentar que el modelo en sí tiene una copia de algunos de estos libros”, y las compañías de IA deberán explicar a los tribunales cómo esa copia también es de uso justo, además de las copias hechas en el curso de la investigación y la capacitación de su modelo.
A medida que se aprende más sobre cómo los LLM memorizan su texto de capacitación, podríamos ver más demandas de autores cuyos libros, con la solicitud correcta, pueden ser reproducidas por completo por LLMS. Investigaciones recientes muestran que los autores ampliamente leídos, incluidos JK Rowling, George RR Martin y Dan Brown pueden estar en esta categoría. Desafortunadamente, este tipo de investigación es costoso y requiere experiencia que sea rara fuera de las empresas de IA. Y la industria tecnológica tiene pocos incentivos para apoyar o publicar tales estudios.
Las dos decisiones recientes se consideran mejor como los primeros pasos hacia una conversación más matizada sobre cómo podría ser el desarrollo responsable de la IA. El propósito de los derechos de autor no es simplemente recompensar a los autores por la escritura, sino crear una cultura que produzca obras importantes de arte, literatura e investigación. Las compañías de IA afirman que su software es creativo, pero AI solo puede remezclar el trabajo con el que ha sido entrenado. Nada en su arquitectura lo hace capaz de hacer algo más. En el mejor de los casos, resume. Algunos escritores y artistas han utilizado una IA generativa con un efecto interesante, pero posiblemente tales experimentos han sido insignificantes al lado del torrente de slop Eso ya está ahogando voces humanas en Internet. Incluso hay evidencia de que AI puede hacernos menos creativo; por lo tanto puede prevenir Los tipos de pensamiento necesarios para el progreso cultural.
El objetivo del uso justo es equilibrar un sistema de incentivos para que el tipo de trabajo que necesita nuestra cultura sea recompensado. Un mundo en el que el entrenamiento de IA es un uso ampliamente justo es probablemente una cultura con menos escritura humana. Si ese es el tipo de cultura que deberíamos tener es una pregunta fundamental que los jueces en los otros casos de IA pueden necesitar enfrentar.