{"id":1794,"date":"2023-12-19T15:20:38","date_gmt":"2023-12-19T14:20:38","guid":{"rendered":"https:\/\/safecreative.org\/arena\/tips\/es\/?p=1794"},"modified":"2025-08-19T09:04:40","modified_gmt":"2025-08-19T07:04:40","slug":"entrenar-llms-con-libros-recientes-puede-ser-fair-use","status":"publish","type":"post","link":"https:\/\/www.safecreative.org\/tips\/es\/entrenar-llms-con-libros-recientes-puede-ser-fair-use\/","title":{"rendered":"\u00bfEntrenar LLMs con libros recientes puede ser \u00abfair use\u00bb?"},"content":{"rendered":"<p>Varios autores notables, entre ellos Sarah Silverman y Michael Chabon, demandaron este a\u00f1o a Meta y a OpenAI por usar miles de libro en el entrenamiento de sus modelos de IA. La demanda ha sido desestimada en parte, y su evoluci\u00f3n puede marcar<strong> precedentes<\/strong> para el uso de textos en el desarrollo de inteligencias artificiales.<\/p>\n<h2>Desarrollo de la demanda<\/h2>\n<p>La demanda fue presentada en julio de 2023 como parte de una serie de quejas legales contra varias empresas, incluyendo Meta y OpenAI. Los autores acusaron a estas compa\u00f1\u00edas de infringir sus derechos de autor al utilizar sus libros para entrenar modelos de lenguaje de IA.<\/p>\n<p>El 19 de septiembre, Meta solicit\u00f3 a un juez federal de San Francisco que desestimara la mayor\u00eda de las acusaciones de la demanda. Explicamos los argumentos m\u00e1s adelante. El 9 de noviembre, el juez Vince Chhabria concedi\u00f3 la moci\u00f3n de Meta para desestimar las alegaciones de los autores de que el texto generado por Llama infring\u00eda sus derechos de autor. Sin embargo, el juez tambi\u00e9n indic\u00f3 que dar\u00eda a los autores <strong>permiso para modificar la mayor\u00eda de sus reclamaciones<\/strong>\u200b\u200b.<\/p>\n<blockquote><p>\u00abEntiendo su teor\u00eda principal. Sus otras teor\u00edas sobre responsabilidad no las entiendo ni un poco.\u00bb \u00abCuando realizo una b\u00fasqueda en Llama, no estoy pidiendo una copia de un libro de Sarah Silverman&#8230; ni siquiera estoy pidiendo un fragmento.\u00bb (<a href=\"https:\/\/www.reuters.com\/legal\/litigation\/us-judge-trims-ai-copyright-lawsuit-against-meta-2023-11-09\/\">Chhabria a los abogados de los autores<\/a>)<\/p><\/blockquote>\n<p>Los abogados de OpenAI tambi\u00e9n han pedido a un tribunal federal en San Francisco que desestime parte de la demanda. En su caso, cinco de los seis reclamos presentados, que incluyen infracci\u00f3n vicaria de derechos de autor, violaci\u00f3n de la Ley de Derechos de Autor del Milenio Digital, competencia desleal, negligencia y enriquecimiento injusto. Sin embargo, <strong>OpenAI est\u00e1 dispuesta a disputar el primer reclamo de infracci\u00f3n directa de derechos de autor, con la esperanza de ganar este punto y establecer un precedente.<\/strong><\/p>\n<h2>Argumentos de los demandantes contra Meta y OpenAI<\/h2>\n<p>La demanda alegaba que Meta utiliz\u00f3 estos libros sin el debido permiso, <strong>a pesar de las claras advertencias de su equipo legal<\/strong> sobre los riesgos legales asociados. En este sentido se incluye como evidencia <strong>registros de chat<\/strong> de un investigador afiliado a Meta, Tim Dettmers.<\/p>\n<p>Dettmers menciona discusiones con el departamento legal de Meta sobre la legalidad de usar archivos de libros como datos de entrenamiento. Indica la preocupaci\u00f3n interna de la empresa sobre los \u00ablibros con derechos de autor activos\u00bb\u200b\u200b\u200b\u200b\u200b\u200b. La conversaci\u00f3n sugiere que Meta era consciente de que el uso de los libros podr\u00eda no estar protegido bajo la ley de derechos de autor de EE.UU.<\/p>\n<p>El n\u00facleo de la demanda de Silverman y los otros autores es el uso de un conjunto de datos llamado <a href=\"https:\/\/en.wikipedia.org\/wiki\/BookCorpus\">BookCorpus<\/a>. Seg\u00fan los demandantes, gran parte de BookCorpus fue copiado de Smashwords, un sitio para novelas autopublicadas. Alegan <a href=\"https:\/\/www.computerworld.com\/article\/3702392\/sarah-silverman-sues-openai-meta-over-copyright-infringement-in-ai-training.html\">que no hay bases de datos legales con el tama\u00f1o suficiente para los sets \u00abBooks1\u00bb y \u00abBooks2\u00bb.<\/a>\u00a0Sugieren que es probable que OpenAI y Meta hayan utilizado \u00abbibliotecas sombra\u00bb como LibGen, Z-Library y Bibliotik para entrenar sus modelos, y que estas fuentes incluyen contenido protegido por derechos de autor\u200b\u200b.<\/p>\n<h2>Argumentos de Meta<\/h2>\n<p>Meta, por su parte, respondi\u00f3 que el <em>software<\/em> de IA no viola los derechos de autor de los autores.<\/p>\n<p>Argumentaron que los libros de los autores<strong> constituyen \u00abmenos de una millon\u00e9sima\u00bb<\/strong> del material utilizado para entrenar Llama. Rechazaron la idea de que los resultados generados por el modelo sean un trabajo derivado de esos libros, o que se basen necesariamente en informaci\u00f3n extra\u00edda de los libros de los demandantes.\u200b Consideran que el entrenamiento de IA <strong>constituye un \u00abuso leg\u00edtimo<\/strong>\u00bb de los libros. Se\u00f1alaron, adem\u00e1s, que los autores <strong>no han podido demostrar que Llama genere texto que se asemeje estrechamente a sus obras<\/strong>.<\/p>\n<h2>Argumentos de OpenAI<\/h2>\n<p>Los abogados de OpenAI argumentan que la empresa no ha violado las leyes de derechos de autor y que ChatGPT est\u00e1 protegido bajo el concepto de \u00abuso leg\u00edtimo\u00bb. Argumentan bas\u00e1ndose sobre todo en la naturaleza transformadora de la IA. Aunque el LLM de OpenAI incluya los libros de los autores y comediantes, <strong>los textos se transforman y se les da una aplicaci\u00f3n distinta,<\/strong> no se usan sin transformar.<\/p>\n<h2>\u00abUso leg\u00edtimo\u00bb <em>(\u00abFair use\u00bb)<\/em><\/h2>\n<p>El \u00abuso leg\u00edtimo\u00bb o \u00abfair use\u00bb es un concepto algo nebuloso, que excusa lo que de otra manera ser\u00edan violaciones de la ley de derechos de autor. Por ejemplo, se suele considerar \u00abuso leg\u00edtimo\u00bb las cr\u00edticas, reportajes o usos para educaci\u00f3n.<\/p>\n<p>Casos como \u00e9ste sentar\u00e1n precedentes para definir si el entrenamiento de IA, en ciertos casos, puede constituir \u00abuso leg\u00edtimo\u00bb o no.<\/p>\n<p>Por un lado, OpenAI y Meta pueden argumentar que s\u00ed lo es, en base al prop\u00f3sito y el car\u00e1cter del uso de las obras, as\u00ed como el efecto sobre el valor de mercado. El uso de las obras en el entrenamiento del modelo no afecta directamente a la venta de libros de los autores demandantes. Y la\u00a0ley de derechos de autor de EE.UU. establece que los \u00abusos transformadores\u00bb de una obra, donde la fuente original se reutiliza para un prop\u00f3sito diferente, se consideran uso leg\u00edtimo.<\/p>\n<p>Por otro lado, Silverman y otros demandantes pueden apoyarse en la naturaleza comercial del uso de sus datos por parte de las empresas, as\u00ed como en el hecho de que las obras se usen en su totalidad\u200b\u200b.<\/p>\n<h2>Implicaciones para empresas de IA y creadores de contenido<\/h2>\n<p>Esta batalla legal no es la \u00fanica de este tipo. Ambas empresas se enfrentan a varias demandas por parte de creadores de contenido de diversos tipos. Y tienen implicaciones que van m\u00e1s all\u00e1 de Meta y OpenAI. La interpretaci\u00f3n que se d\u00e9 al \u00abuso leg\u00edtimo\u00bb en estos contextos puede afectar a toda la industria de la IA, al menos en EE.UU.<\/p>\n<p>Los demandantes, en el caso de textos, pueden argumentar que los sistemas de IA pueden resumir con precisi\u00f3n sus trabajos y generar textos que imitan sus estilos, y que esto podr\u00eda considerarse una infracci\u00f3n de derechos de autor\u200b\u200b.<\/p>\n<p>En Europa est\u00e1n surgiendo nuevas regulaciones que podr\u00edan obligar a las empresas de IA a divulgar los datos utilizados para entrenamiento. Si demandas como \u00e9sta tienen \u00e9xito, pueden obligar a tener que adquirir licencias para el uso de ciertas obras. En algunos pa\u00edses el escrutinio podr\u00eda ser m\u00e1s estricto, as\u00ed como las demandas de compensaci\u00f3n por parte de los creadores de contenido. Casos como \u00e9ste podr\u00edan aumentar el costo de desarrollo de modelos de IA, ya que requieren grandes cantidades de datos.<\/p>\n","protected":false},"excerpt":{"rendered":"<p><span class=\"excerpt_part\">Varios autores notables, entre ellos Sarah Silverman y Michael Chabon, demandaron este a&ntilde;o a Meta y a OpenAI por usar miles de libro en el entrenamiento de sus modelos de&#8230;<\/span><\/p>\n","protected":false},"author":4,"featured_media":1804,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"footnotes":""},"categories":[2],"tags":[52,13,30,33],"class_list":["post-1794","post","type-post","status-publish","format-standard","has-post-thumbnail","category-noticias","tag-casos-reales","tag-escritores","tag-fair-use","tag-inteligencia-artificial"],"acf":[],"_links":{"self":[{"href":"https:\/\/www.safecreative.org\/tips\/es\/wp-json\/wp\/v2\/posts\/1794","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.safecreative.org\/tips\/es\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.safecreative.org\/tips\/es\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.safecreative.org\/tips\/es\/wp-json\/wp\/v2\/users\/4"}],"replies":[{"embeddable":true,"href":"https:\/\/www.safecreative.org\/tips\/es\/wp-json\/wp\/v2\/comments?post=1794"}],"version-history":[{"count":2,"href":"https:\/\/www.safecreative.org\/tips\/es\/wp-json\/wp\/v2\/posts\/1794\/revisions"}],"predecessor-version":[{"id":12118,"href":"https:\/\/www.safecreative.org\/tips\/es\/wp-json\/wp\/v2\/posts\/1794\/revisions\/12118"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.safecreative.org\/tips\/es\/wp-json\/wp\/v2\/media\/1804"}],"wp:attachment":[{"href":"https:\/\/www.safecreative.org\/tips\/es\/wp-json\/wp\/v2\/media?parent=1794"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.safecreative.org\/tips\/es\/wp-json\/wp\/v2\/categories?post=1794"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.safecreative.org\/tips\/es\/wp-json\/wp\/v2\/tags?post=1794"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}