Entrenamiento de modelos de IA con contenidos protegidos por derechos de autor: Novedades judiciales sobre la doctrina del fair use.
Los debates jurídicos alrededor del entrenamiento de modelos de IA con contenidos protegidos por derechos de autor se están intensificando, especialmente en relación con la aplicación de las excepciones o limitaciones de los mismos, en particular respecto de la minería de textos y de datos (TDM) en la UE y el fair use en EE.UU., esgrimidas por la industria de la IA.
Mi opinión y posicionamiento desde hace años, expresada en diversas monografías, artículos de investigación y conferencias, ha sido muy contraria a la aplicación automática de estas excepciones, especialmente en el caso de la primera en el ámbito de la UE, en la medida que no fue concebida para legitimar la reproducción (en su caso) y uso de obras protegidas por derechos de autor para el entrenamiento de modelos de IA con finalidad comercial, sin autorización ni compensación de sus titulares.
En relación con la excepción de minería de textos y de datos, durante este último año se han ido sumando nuevas voces críticas en relación con su aplicación en este contexto, por ejemplo, expertos como Tim W. Dornis. Asimismo, esta cuestión protagonizó la tardía transposición de la Directiva (UE) 2019/790 sobre los derechos de autor y derechos afines en el mercado único digital por parte de Polonia, que analizó en su Proyecto de Ley de transposición la excepción de minería de textos y de datos previstos en la misma, concluyendo que “la reproducción de obras para minería de textos y datos no puede utilizarse para crear modelos generativos de inteligencia artificial”. Por último, el reciente borrador de informe sobre Copyright and generative artificial intelligence-opportunities and challenges, del Comité de Asuntos Jurídicos del Parlamento Europeo, de 27 de junio de 2025, en relación con la Propuesta de Resolución del Parlamento Europeo sobre los derechos de autor y la inteligencia artificial generativa – oportunidades y retos (2025/2058(INI)), abordó esta excepción, recomendando a la Comisión, con independencia de la revisión prevista del marco jurídico de los derechos de autor y de la Directiva de Derechos de Autor, que lleve a cabo urgentemente una evaluación exhaustiva de si el acervo existente de la UE en materia de derechos de autor aborda adecuadamente la inseguridad jurídica y los efectos sobre la competencia asociados al uso de obras protegidas y otras materias para el entrenamiento de sistemas de IA generativa. Del mismo modo, recomienda además que dicha evaluación tenga como objetivo apostar por un marco en el que los mecanismos de remuneración equitativa permitan generar los recursos necesarios para que la producción artística y creativa europea prospere en el contexto de la transformación mundial impulsada por la IA.
En relación con la doctrina del fair use estadounidense, durante los últimos meses se han sucedido las primeras resoluciones judiciales en EE.UU. sobre su aplicación al entrenamiento de modelos de IA en función del contexto, y que me permito analizar a continuación de manera sucinta dada la extensión limitada de este tipo de artículo, en colaboración con Mª José Montañana Bartual, quien ha profundizado en estas cuestiones y su análisis en un reciente y brillante trabajo de investigación elaborado en el marco académico de la Universidad de Valencia.
Resolución del Tribunal del Distrito de Delaware, dictada en el Caso Thomson Reuters Enterprise Centre GmbH vs. Ross Intelligence Inc. (No. 1:20-cv-613-SB). 11 de febrero de 2025 (1).
La resolución dictada por el Juez Stephanos Bibas, del Tribunal de Distrito de Delaware, representó un precedente fundamental en el derecho de autor estadounidense respecto al uso de obras protegidas por derechos de autor para el entrenamiento de modelos de IA. Se trata de la primera ocasión en la que un tribunal federal determinó que el uso de contenido protegido por derecho de autor para entrenar tecnología de IA no constituye un uso legítimo bajo la doctrina del fair use, sin perjuicio del precedente dictado en el asunto White v. West (2014), al que nos referiremos con posterioridad.
La demanda se interpuso por Thomson Reuters Enterprise Centre GmbH y West Publishing Corp contra Ross Intelligence Inc.
El objeto del litigio se sustentaba en la reproducción y uso de headnotes (2) protegidos por derechos de autor y pertenecientes a la herramienta Westlaw – una de las bases jurídicas más importantes de mundo titularidad de la parte demandante-, como datos de entrenamiento para un motor de búsqueda legal basado en IA comercializado por Ross Intelligence, un competidor emergente de Westlaw, para lo que contrató a un tercero (LegalEase), tras la negativa previa de Thomson Reuters a licenciarle su contenido para entrenar su sistema.
Westlaw contiene bases de datos legales organizadas mediante un sistema propietario llamado “Key Number System” e incluye «headnotes» o sumarios que identifican los aspectos clave de la resolución a la que van asociados.
La parte demandante argumentó que Ross había infringido sus derechos de autor sobre sus headnotes como obras individuales, sobre el sistema Key Number System como compilación protegida y sobre las decisiones editoriales incorporadas en 500 valoraciones judiciales.
Para la parte demandante los headnotes constituían obras originales protegibles por derechos de autor, ya que representaban una síntesis creativa de opiniones judiciales extensas, requiriendo juicio editorial para identificar los puntos de derecho más relevantes.
La parte demandada basó su defensa en el fair use argumentando, entre otros aspectos, de un lado, que su uso era transformativo al crear una nueva herramienta de investigación legal con propósito diferente al original, de otro, la falta de originalidad de los headnotes y, de otro, su uso intermedio para el entrenamiento de modelos de IA, como los que se vienen haciendo en la ingeniería inversa respecto del software.
El Juez consideró que los headnotes están protegidos por derechos de autor, considerando que son producto del trabajo intelectual de los redactores y que contienen explicaciones originales, habiéndose copiado más 2.200 headnotes de forma textual y casi idéntica.
El Juez estimó la mayor parte de las peticiones de la parte demandante, rechazando la aplicación del fair use esgrimido como argumento de defensa por Ross Intelligence para el entrenamiento de su modelo de IA, y declarando la infracción directa de los derechos de autor de la parte demandante por parte de la demandada.
La resolución judicial abordó la ponderación de los distintos factores a considerar para considerar concurrente la excepción de fair use, conforme a la disposición 17 U.S.C. § 107, esto es, la finalidad y carácter del uso (uso comercial y no transformador por parte de Ross, distinguiéndolo de casos anteriores como Google LLC v. Oracle Am., Inc., 593 U.S. 1 -2021-), la naturaleza de la obra protegida (aunque sea considerada de un nivel creativo medio o limitado y con originalidad), la cantidad y sustancialidad del uso de las obras protegidas (las headnotes no fueron incluidas por Ross en el producto final, solo fueron utilizadas para el entrenamiento del modelo) y el efecto en el mercado (con afectación del mercado existente y potencial de Westlaw y a su negocio, estando además entre los planes de Ross competir directamente con Westlaw). Este último factor fue considerado el más importante, conforme recoge en otros pronunciamientos judiciales anteriores referenciados en la resolución judicial, como en el asunto Harper & Row, Publishers, Inc. v. Nation Enterprises, 471 U.S. 539 (1985).
Una vez ponderados estos factores, el Juez consideró que la doctrina del fair use es inaplicable en el supuesto analizado, concluyendo que el uso de los headnotes para el entrenamiento de modelos de IA no era transformador y competía directamente con el producto original, afectando su mercado, por lo que dictó sentencia a favor de la parte demandante por infracción directa de los derechos de autor sobre los headnotes, rechazando la concurrencia de fair use.
Significar algunas de sus conclusiones: “No basta con decir que el uso fue ‘para entrenar una IA’ o que ‘nadie verá directamente los textos copiados’. Si estás usando algo protegido por derechos de autor con fines comerciales, y sin transformarlo realmente, no puedes escudarte en el fair use”. “No todo uso de obras protegidas para entrenar inteligencia artificial está amparado por el fair use”, especialmente cuando el uso no es realmente transformador y compite con el creador original.
El Juez Bibas introdujo una analogía innovadora comparando la creación de headnotes con el trabajo escultórico. Esta metáfora legal establece que, así como un escultor crea una obra protegible al extraer una forma de un bloque de mármol, los editores legales crean obras protegibles al extraer aspectos jurídicos clave de opiniones judiciales extensas.
Del mismo modo, la resolución establece una distinción entre el copying intermedio en casos de software y el entrenamiento de IA. Mientras que en casos precedentes como el indicado anteriormente entre Google vs Oracle permitieron el copying intermedio cuando era necesario para acceder a elementos funcionales no protegidos, el Juez determinó que esta justificación no se aplica al entrenamiento de IA con contenido no funcional.
El Juez también rechazó el argumento de que el entrenamiento de IA es inherentemente transformativo, estableciendo que el carácter transformativo debe evaluarse según el propósito específico del uso, no según la tecnología empleada. El caso sigue abierto donde deberá también dilucidarse sobre el uso del sistema de organización “Key Number”.
La decisión estableció un precedente restrictivo para compañías de IA que buscan utilizar contenido protegido por derechos de autor para entrenamiento, especialmente cuando a) exista competencia directa con el titular de derechos de autor; b) el uso sea comercial y sin transformación significativa y; c) afecte a mercados existentes o potenciales en relación con las obras originales.
No obstante, este pronunciamiento contrasta relativamente con otros posteriores dictados en casos recientes, como el de Anthropic o Meta, que se abordarán a continuación, en la medida que en estos últimos se determinó que el entrenamiento de IA con obras protegidas podría considerarse fair use «con transformación significativa». Estas discrepancias judiciales y la falta de una delimitación clara de la doctrina del fair use en el marco del entrenamiento de modelos de IA sugieren que la cuestión llegará a la Corte Suprema.
Resolución del Tribunal de Distrito del Norte de California (Caso C24- 05417 WHA) sobre el uso de obras protegidas por derechos de autor por parte de Anthropic PBC en el entrenamiento de modelos de IA (Claude). 23 de junio de 2025 (3).
La resolución constituye otro precedente fundamental en la aplicación de la doctrina del fair use al entrenamiento de modelos de IA con obras protegidas por derechos de autor. La decisión judicial establece criterios diferenciados para evaluar distintos usos de obras protegidas por derechos de autor en el desarrollo de IA, marcando límites claros entre usos legítimos e infracciones de los derechos de autor.
La demanda fue interpuesta por Andrea Bartz, Charles Graeber y Kirk Wallace Johnson como autores, junto con sus entidades titulares de derechos, frente a Anthropic PBC, empresa de IA desarrolladora del modelo Claude, por infracción de derechos de autor por la entidad demandada al supuestamente entrenar su modelo de IA utilizando libros protegidos por derechos de autor, algunos obtenidos de fuentes ilícitas (piratas) y otros adquiridos legítimamente por Anthropic.
La parte demandante alegó la infracción de sus derechos de autor por la reproducción no autorizada de sus obras para crear una biblioteca central de libros y entrenar los modelos de IA con sus obras, la retención en los modelos de copias comprimidas de sus obras, la obtención de sus obras de fuentes ilícitas -piratas-, la no aplicación del fair use como causa legitimadora para el entrenamiento de modelos de IA con sus obras y la emulación de su estilo y expresión narrativa por parte del sistema generativo de la demandada. Y todo ello significando la naturaleza comercial lucrativa del negocio de Anthropic y el daño en el mercado, dado que el uso desplazaba ventas potenciales y mercados de licenciamiento emergentes.
Por su parte, la parte demandada reconoció el uso y copia masiva de obras y argumentó, entre otros aspectos, de un lado, que lo hizo con finalidad y uso transformativo de entrenamiento de sus modelos de IA y para la construcción de una biblioteca de investigación interna, de otro, que sus modelos no reproducen directamente las obras y, por último, que la transformación mediante la digitalización de libros físicos comprados en tiendas y plataformas para su conversión en PDF para uso interno era un uso razonable y legítimo (fair use). Adicionalmente, argumentó la analogía con el aprendizaje humano, comparando el entrenamiento de IA con el proceso de lectura y aprendizaje humano, de modo que no debería haber diferencias en el tratamiento legal, junto con el beneficio público para la sociedad de todo ello y la necesidad técnica de utilizar grandes volúmenes de datos para entrenar los modelos de IA.
Según recoge la resolución, Anthropic descargó millones de copias pirateadas de libros desde sitios como Books3, LibGen y PiLiMi entre 2021-2022. Posteriormente compró millones de libros físicos, los destruyó y los digitalizó para crear una «biblioteca de investigación central», utilizó subconjuntos de estas obras para entrenar diversos modelos de lenguaje que alimentan a Claude y generó más de mil millones de dólares en ingresos anuales.
El Juez William Alsup, a diferencia de la resolución anteriormente analizada, admitió el fair use para el entrenamiento de los modelos de la parte demandada con obras protegidas adquiridas en el mercado por la misma y su digitalización, si bien, rechazó el fair use respecto de obras obtenidas de fuentes ilícitas, considerando su uso una infracción.
El Juez tomó como referencia normativa para su resolución la disposición 17 U.S.C. § 107 – Fair Use Doctrine, así como casos precedentes como: Google v. Oracle (593 U.S. 1, 2021), que admite el fair use incluso en uso comercial si el fin es suficientemente transformador; Campbell v. Acuff-Rose (510 U.S. 569, 1994), que aborda el uso paródico como fair use; Authors Guild v. Google (804 F.3d 202, 2d Cir. 2015), que establece que escaneo masivo de libros puede ser fair use; Andy Warhol Foundation v. Goldsmith (2023); Thomson Reuters v. Ross (D. Del. 2025), que establece que el uso de textos jurídicos para IA no fue transformativo o; White v. West Pub. (S.D.N.Y. 2014), que consideró que constituye fair use usar textos jurídicos y justificado convertir y reutilizar material público de manera transformativa en bases de datos comerciales.
De este modo, el Juez admitió el fair use esgrimido por la parte demandada, tanto para el entrenamiento de sus modelos -considerando que sus modelos fueron entrenados con los libros, sin reproducción de los textos (aprenden patrones y estructura de lenguaje), sin generación de resultados de salida literales de las obras a los usuarios y con un uso transformativo, equiparando el proceso a cómo una persona aprende a escribir leyendo libros-, como para la conversión de libros comprados de formato físico a digital con finalidades de almacenamiento y búsqueda. Sin embargo, se rechazó la aplicación del fair use en relación con la descarga de libros por la parte demandada desde sitios piratas como Books3, LibGen o PiLiMi para conformar una biblioteca centralizada.
En definitiva, la doctrina sobre la que se sustenta esta resolución es que “el uso de libros adquiridos legalmente para entrenamiento de IA sería fair use”, considerando dicho uso transformativo a los efectos de la aplicación de la excepción. La creación de copias digitales a partir de libros comprados también lo es. Pero la piratería masiva para construir una biblioteca permanente no lo es y constituye una infracción. Significar, entre otros aspectos criticables de la resolución, que las obras protegidas fueron adquiridas en el mercado por la parte demandada con esa particular finalidad comercial pero no fueron puestas en el mercado y comercializadas por los titulares de los derechos sobre las mismas con dicha finalidad para sus usuarios, sino para un uso privado no comercial.
La resolución abre la vía para una demanda de responsabilidad multimillonaria contra Anthropic que podría impactar en negocio e incluso en su continuidad, por lo que acaba de reforzar su defensa con la contratación de varios abogados expertos para afrontar la misma.
Resolución del Tribunal de Distrito del Norte de California (caso No. 3:23- cv-03417, VC) en la demanda por infracción de derechos de autor contra Meta Platforms, Inc. por el uso de libros protegidos en el entrenamiento de modelos de IA (LLaMA). 25 de junio de 2025 (4).
La demanda fue interpuesta por distintos autores como Sarah Silverman, Christopher Golden y Richard Kadrey frente a Meta Platforms, Inc., por el entrenamiento por parte de ésta de sus modelos de IA LLMs (LLaMA 1 y LLaMA 2) con libros protegidos por derechos de autor sin autorización ni compensación, y desde fuentes ilícitas (piratas).
La parte demandante alegó una infracción masiva por entrenamiento de modelos de IA con obras protegidas, Según la misma, Meta obtuvo libros desde fuentes ilícitas (piratas), copiando y procesando íntegramente sus obras sin autorización ni compensación para entrenamiento de sus modelos, argumentando que dichos modelos podrían reproducir fragmentos protegidos y contenidos que compiten con los suyos, y que ello perjudica su capacidad de licenciar sus obras.
La parte demandada reconoció haber utilizado materiales pirateados, pero argumentó que dicho uso constituye fair use conforme a la disposición 17 U.S.C. § 107, invocando la naturaleza transformadora del entrenamiento de sus modelos y sosteniendo que los mismos no reproducen ni distribuyen directamente las obras protegidas o fragmentos de ellas, conforme la parte demandante no demostró, sino que se convierten en patrones estadísticos.
Para la parte demandada, entrenar sus modelos LLMs era un uso transformativo distinto al de lectura o entretenimiento, equiparable a cómo aprender de una obra para producir algo diferente.
El Juez tomó como referencia normativa para su resolución la disposición 17 U.S.C. § 107 – Fair Use Doctrine, así como los siguientes casos: Twentieth Century Music Corp. v. Aiken, 422 U.S. 151, 156 (1975); Harper & Row Publishers, Inc. v. Nation Enterprises, 471 U.S. 539, 566 (1985); Campbell v. Acuff-Rose Music, Inc., 510 U.S. 569, 590 (1994); Sony Corp. of America v. Universal City Studios, Inc., 464 U.S. 417, 430 (1984); Google LLC v. Oracle America, Inc., 593 U.S. 1, 18 (2021), que admite el fair use incluso en uso comercial si el fin es suficientemente transformador; Andy Warhol Foundation for the Visual Arts, Inc. v. Goldsmith, 598 U.S. 508, 526 (2023); Authors Guild v. Google (804 F.3d 202, 2d Cir. 2015), que establece que escaneo masivo de libros puede ser fair use; Thomson Reuters v. Ross (D. Del. 2025), que establece que el uso de textos jurídicos para IA no fue transformativo y; White v. West Pub. (S.D.N.Y. 2014).
La doctrina sobre la que el Juez sustentó esta resolución es que el uso de libros para entrenamiento de modelos de IA sería fair use, en defecto de alegaciones y pruebas que motiven determinar su no concurrencia, considerando el carácter transformador de dicho entrenamiento y no considerando la concurrencia de daños al mercado.
A diferencia del pronunciamiento judicial analizado en el caso Claude, C24- 05417 WHA, junio 2025, el Juez, Vince Chhabria, desestimó la petición contra Meta, argumentando que el entrenamiento de los modelos de IA era altamente transformador y que los demandantes no demostraron un daño real ni impacto en el mercado, aplicando la doctrina del fair use.
El juez reconoció que el uso de obras protegidas sin autorización para entrenar IA podría ser ilegal en muchos contextos, pero en este caso concreto la demanda fue desestimada por falta de pruebas y por la argumentación incorrecta de los demandantes según el juzgador. La decisión enfatizó que el fallo no implica que cualquier uso de obras protegidas por Meta sea legal, sino que los demandantes no lograron fundamentar adecuadamente su reclamación en instancia. El fallo no pretende avalar automáticamente toda práctica de la parte demandada.
Al igual que en el caso Bartz contra Anthropic, el juzgador consideró que el fair use eximía de responsabilidad a la parte demandada por supuesta infracción de derechos de autor. Ambos tribunales llegaron a la misma conclusión, si bien, sus razonamientos sobre la aplicación de la prueba de los cuatro factores de la doctrina del fair use (finalidad y carácter, naturaleza de la obra, cantidad usada y efecto en el mercado) fueron diferentes y con importantes salvedades.
El juez Chhabria, en el caso Meta, abordó con profundidad un posible argumento que los demandantes podrían haber esgrimido, pero que no presentaron de forma adecuada, esto es, que Meta había “copiado sus obras para crear un producto que probablemente inundaría el mercado con obras similares, provocando una dilución del mercado”. La teoría de la dilución es novedosa en el ámbito de los derechos de autor y se base en la expectativa de que los usuarios de sistemas generativos puedan producir volúmenes tan grandes de obras generadas por IA que los mercados ser verán inundados de obras generadas por IA que competirán con obras creadas por autores humanos, de modo que se desincentivarán éstos para crear obras nuevas y no
podrán vivir de la creación y explotación de sus obras.
Según el juez, si la parte demandante hubiera presentado alguna prueba que un jurado pudiera haber utilizado para determinar que los demandantes se enfrentaban a tal dilución del mercado, la demanda interpuesta habría tenido que ser sometida a un jurado (no sumario), por lo que considera que el tribunal “no tenía más remedio” que dictar una resolución sumaria. El Juez considera en su resolución que la parte demandante presentó argumentos erróneos.
En definitiva, la resolución dictada constituye una decisión limitada al caso concreto y evidencia, a nuestro juicio, que el debate jurídico sobre la doctrina del fair use sigue abierto, en la medida que la aplicación de misma no está claramente delimitada y el posicionamiento de expertos no es pacífico, de modo que es previsible la intensificación del debate doctrinal y litigioso en EE.UU. Actualmente hay más de 40 procedimientos judiciales en tramitación sobre estos aspectos y habrá que esperar a la firmeza de sus resoluciones para conformar la doctrina del uso legítimo.
José Manuel Muñoz Vela
Abogado especialista en Derecho Digital e IA
Doctor en Derecho (IA)
Director Jurídico Adequa Corporación
Mª José Montañana Bartual
Graduada en Derecho y Criminología
Universidad de Valencia
(1) Thomson Reuters v. ROSS Intelligence, 1:20‑cv‑613‑SB (D. Del., feb‑2025)
(2) Son resúmenes breves que Westlaw crea para cada sentencia judicial
(3) Recuperado de https://regmedia.co.uk/2025/06/24/anthropic.pdf. Consultado el 28 de junio de 2025.
(4) Recuperado de https://cdn.arstechnica.net/wp-content/uploads/2025/03/Kadrey-v-Meta-Motion-for-Summary-Judgment-3-10-25.pdf. Consultado el 28.06.2025

Imagen generada con ChatGPT 4.o bajo instrucciones de su autor.