¿Entrenar LLMs con libros recientes puede ser "fair use"?

Varios autores notables, entre ellos Sarah Silverman y Michael Chabon, demandaron este año a Meta y a OpenAI por usar miles de libro en el entrenamiento de sus modelos de IA. La demanda ha sido desestimada en parte, y su evolución puede marcar precedentes para el uso de textos en el desarrollo de inteligencias artificiales.

Desarrollo de la demanda

La demanda fue presentada en julio de 2023 como parte de una serie de quejas legales contra varias empresas, incluyendo Meta y OpenAI. Los autores acusaron a estas compañías de infringir sus derechos de autor al utilizar sus libros para entrenar modelos de lenguaje de IA.

El 19 de septiembre, Meta solicitó a un juez federal de San Francisco que desestimara la mayoría de las acusaciones de la demanda. Explicamos los argumentos más adelante. El 9 de noviembre, el juez Vince Chhabria concedió la moción de Meta para desestimar las alegaciones de los autores de que el texto generado por Llama infringía sus derechos de autor. Sin embargo, el juez también indicó que daría a los autores permiso para modificar la mayoría de sus reclamaciones.

«Entiendo su teoría principal. Sus otras teorías sobre responsabilidad no las entiendo ni un poco.» «Cuando realizo una búsqueda en Llama, no estoy pidiendo una copia de un libro de Sarah Silverman… ni siquiera estoy pidiendo un fragmento.» (Chhabria a los abogados de los autores)

Los abogados de OpenAI también han pedido a un tribunal federal en San Francisco que desestime parte de la demanda. En su caso, cinco de los seis reclamos presentados, que incluyen infracción vicaria de derechos de autor, violación de la Ley de Derechos de Autor del Milenio Digital, competencia desleal, negligencia y enriquecimiento injusto. Sin embargo, OpenAI está dispuesta a disputar el primer reclamo de infracción directa de derechos de autor, con la esperanza de ganar este punto y establecer un precedente.

Argumentos de los demandantes contra Meta y OpenAI

La demanda alegaba que Meta utilizó estos libros sin el debido permiso, a pesar de las claras advertencias de su equipo legal sobre los riesgos legales asociados. En este sentido se incluye como evidencia registros de chat de un investigador afiliado a Meta, Tim Dettmers.

Dettmers menciona discusiones con el departamento legal de Meta sobre la legalidad de usar archivos de libros como datos de entrenamiento. Indica la preocupación interna de la empresa sobre los «libros con derechos de autor activos». La conversación sugiere que Meta era consciente de que el uso de los libros podría no estar protegido bajo la ley de derechos de autor de EE.UU.

El núcleo de la demanda de Silverman y los otros autores es el uso de un conjunto de datos llamado BookCorpus. Según los demandantes, gran parte de BookCorpus fue copiado de Smashwords, un sitio para novelas autopublicadas. Alegan que no hay bases de datos legales con el tamaño suficiente para los sets «Books1» y «Books2». Sugieren que es probable que OpenAI y Meta hayan utilizado «bibliotecas sombra» como LibGen, Z-Library y Bibliotik para entrenar sus modelos, y que estas fuentes incluyen contenido protegido por derechos de autor.

Argumentos de Meta

Meta, por su parte, respondió que el software de IA no viola los derechos de autor de los autores.

Argumentaron que los libros de los autores constituyen «menos de una millonésima» del material utilizado para entrenar Llama. Rechazaron la idea de que los resultados generados por el modelo sean un trabajo derivado de esos libros, o que se basen necesariamente en información extraída de los libros de los demandantes. Consideran que el entrenamiento de IA constituye un «uso legítimo» de los libros. Señalaron, además, que los autores no han podido demostrar que Llama genere texto que se asemeje estrechamente a sus obras.

Argumentos de OpenAI

Los abogados de OpenAI argumentan que la empresa no ha violado las leyes de derechos de autor y que ChatGPT está protegido bajo el concepto de «uso legítimo». Argumentan basándose sobre todo en la naturaleza transformadora de la IA. Aunque el LLM de OpenAI incluya los libros de los autores y comediantes, los textos se transforman y se les da una aplicación distinta, no se usan sin transformar.

«Uso legítimo» («Fair use»)

El «uso legítimo» o «fair use» es un concepto algo nebuloso, que excusa lo que de otra manera serían violaciones de la ley de derechos de autor. Por ejemplo, se suele considerar «uso legítimo» las críticas, reportajes o usos para educación.

Casos como éste sentarán precedentes para definir si el entrenamiento de IA, en ciertos casos, puede constituir «uso legítimo» o no.

Por un lado, OpenAI y Meta pueden argumentar que sí lo es, en base al propósito y el carácter del uso de las obras, así como el efecto sobre el valor de mercado. El uso de las obras en el entrenamiento del modelo no afecta directamente a la venta de libros de los autores demandantes. Y la ley de derechos de autor de EE.UU. establece que los «usos transformadores» de una obra, donde la fuente original se reutiliza para un propósito diferente, se consideran uso legítimo.

Por otro lado, Silverman y otros demandantes pueden apoyarse en la naturaleza comercial del uso de sus datos por parte de las empresas, así como en el hecho de que las obras se usen en su totalidad.

Implicaciones para empresas de IA y creadores de contenido

Esta batalla legal no es la única de este tipo. Ambas empresas se enfrentan a varias demandas por parte de creadores de contenido de diversos tipos. Y tienen implicaciones que van más allá de Meta y OpenAI. La interpretación que se dé al «uso legítimo» en estos contextos puede afectar a toda la industria de la IA, al menos en EE.UU.

Los demandantes, en el caso de textos, pueden argumentar que los sistemas de IA pueden resumir con precisión sus trabajos y generar textos que imitan sus estilos, y que esto podría considerarse una infracción de derechos de autor.

En Europa están surgiendo nuevas regulaciones que podrían obligar a las empresas de IA a divulgar los datos utilizados para entrenamiento. Si demandas como ésta tienen éxito, pueden obligar a tener que adquirir licencias para el uso de ciertas obras. En algunos países el escrutinio podría ser más estricto, así como las demandas de compensación por parte de los creadores de contenido. Casos como éste podrían aumentar el costo de desarrollo de modelos de IA, ya que requieren grandes cantidades de datos.

Índice [hide]

¿Entrenar LLMs con libros recientes puede ser «fair use»?