Por Canuto  

La Enciclopedia Británica y Merriam-Webster demandaron a OpenAI por presunta infracción masiva de derechos de autor, en un nuevo capítulo del choque entre grandes editoriales y desarrolladores de inteligencia artificial por el uso de contenido protegido para entrenar modelos y generar respuestas.

***

  • Britannica afirma que OpenAI utilizó sin permiso casi 100.000 artículos protegidos por derechos de autor para entrenar sus modelos.
  • La demanda también acusa a ChatGPT de reproducir fragmentos textuales, usar contenido en flujos RAG y atribuir falsamente errores a la editorial.
  • El caso se suma a una ola de litigios contra OpenAI, mientras sigue sin existir un precedente definitivo sobre el entrenamiento de LLM con material protegido.

 


La Enciclopedia Británica y Merriam-Webster presentaron una demanda contra OpenAI, acusando a la empresa de haber cometido una “infracción masiva de derechos de autor”. El caso añade presión legal sobre uno de los actores más visibles del sector de inteligencia artificial, en medio de una disputa cada vez más amplia entre editoriales, medios y desarrolladores de grandes modelos de lenguaje.

Británica, propietaria de Merriam-Webster, sostiene que posee los derechos de autor de casi 100.000 artículos en línea. Según la demanda, ese material fue extraído y utilizado para entrenar los LLM de OpenAI sin autorización, una práctica que las editoriales consideran una apropiación indebida de contenido de alto valor producido durante años.

La querella no se limita al entrenamiento de modelos. También acusa a OpenAI de infringir la ley cuando genera respuestas que contienen “reproducciones verbatim completas o parciales” de contenidos protegidos. A eso suma objeciones sobre el uso de artículos de Británica dentro del flujo de trabajo de RAG de ChatGPT, el sistema con el que el modelo consulta la web u otras bases de datos para ofrecer respuestas más actualizadas.

El conflicto refleja una tensión de fondo en la economía digital. Las empresas de IA necesitan enormes volúmenes de texto para desarrollar sistemas competitivos, mientras que editores y productores de conocimiento sostienen que ese proceso amenaza sus modelos de negocio y erosiona el valor comercial de sus archivos.

Qué alega la demanda contra OpenAI

Británica afirma que OpenAI no solo habría usado sus textos para entrenamiento, sino que además generaría respuestas que sustituyen directamente el acceso al contenido original. En la demanda, la editorial sostiene que la generación de ChatGPT priva a los editores web de ingresos, al responder consultas de usuarios con información que compite de forma directa con los contenidos publicados por medios y bases de conocimiento especializadas.

Ese punto es central en la disputa. Para las editoriales, el problema no es solo la copia inicial del contenido, sino el hecho de que la respuesta de un chatbot puede absorber la intención de búsqueda del usuario y evitar que este visite la fuente original. En términos económicos, eso puede afectar tráfico, suscripciones, publicidad y otras vías de monetización.

La demanda también incorpora una acusación bajo la Ley Lanham, una norma vinculada a marcas y representación comercial. Según Británica, OpenAI incurre en violaciones a esa legislación cuando ChatGPT produce alucinaciones, es decir, información inventada, y se la atribuye falsamente a la editorial. La empresa considera que eso puede dañar su reputación como fuente confiable de referencia.

Además, Británica argumenta que estas alucinaciones ponen en peligro “el acceso continuado del público a información en línea de alta calidad y confiable”. La afirmación va más allá del plano económico y entra en el debate sobre el papel de la IA en la circulación del conocimiento, especialmente cuando sistemas ampliamente usados presentan errores con apariencia de autoridad.

Una nueva demanda en una ola de litigios

El caso de Británica y Merriam-Webster se suma a una lista cada vez más extensa de acciones judiciales contra OpenAI. En los últimos meses, distintos grupos editoriales, periódicos y escritores han acudido a los tribunales con argumentos similares, centrados en derechos de autor, competencia y uso comercial de materiales protegidos.

Entre los demandantes ya figuran The New York Times, Ziff Davis, propietario de Mashable, CNET, IGN y PC Mag, así como más de una docena de periódicos de Estados Unidos y Canadá. Entre ellos se mencionan el Chicago Tribune, el Denver Post, el Sun Sentinel, el Toronto Star y la Canadian Broadcasting Corporation.

El hecho de que editoriales de perfiles tan distintos hayan optado por la vía judicial muestra que el conflicto dejó de ser un choque aislado. Ahora forma parte de una confrontación estructural entre industrias que producen contenido y empresas que desarrollan sistemas de IA generativa con capacidad de resumir, reformular y redistribuir información a escala.

Británica, además, ya mantiene otra demanda similar contra Perplexity. Eso sugiere que su estrategia legal no apunta únicamente a OpenAI, sino a un conjunto más amplio de compañías que utilizan o presentan información en formatos conversacionales basados en recopilación automatizada y síntesis algorítmica.

El vacío legal sobre entrenamiento de modelos

Uno de los aspectos más relevantes del caso es que todavía no existe un precedente jurídico sólido que zanje si el uso de contenido protegido para entrenar un LLM constituye o no una infracción de derechos de autor. Ese vacío ha dado lugar a interpretaciones enfrentadas y a decisiones parciales, sin una regla definitiva aplicable a toda la industria.

Según reportó TechCrunch, en un caso particular Anthropic logró convencer al juez federal William Alsup de que usar contenido como datos de entrenamiento puede ser lo suficientemente transformativo como para resultar legal. Esa interpretación favorece la idea de que el aprendizaje estadístico de un modelo no equivale necesariamente a una copia infractora en el sentido tradicional.

Sin embargo, el mismo juez sostuvo que Anthropic sí violó la ley al descargar ilegalmente millones de libros en lugar de pagarlos. Esa conducta llevó a un acuerdo de acción de clase por USD $1.500.000.000 destinado a los escritores afectados. La distinción es importante porque separa el debate sobre el entrenamiento como uso transformativo del debate sobre cómo se obtuvo el material utilizado.

Para OpenAI y otras empresas del sector, el desenlace de estos casos podría influir en costos, licencias, disponibilidad de datos y diseño de producto. Para editoriales, escritores y propietarios de bases documentales, el objetivo es fijar límites claros sobre qué puede hacerse con contenido protegido en la era de la IA generativa.

Lo que está en juego para la IA y los editores

Más allá del pleito específico, la disputa resume un conflicto mayor sobre el equilibrio entre innovación y propiedad intelectual. Los sistemas de IA prometen mejorar el acceso a la información y automatizar tareas complejas, pero ese avance depende, en muchos casos, de corpus entrenados con materiales producidos por terceros.

Las editoriales sostienen que, si las plataformas de IA pueden absorber y reempaquetar su trabajo sin compensación, se debilita el incentivo para seguir financiando periodismo, enciclopedias, diccionarios y otros recursos de referencia. En ese escenario, la calidad del ecosistema informativo podría resentirse con el tiempo.

Las empresas tecnológicas, por su parte, suelen defender que el entrenamiento de modelos tiene un carácter transformativo y que restringirlo en exceso podría frenar la innovación. También argumentan que los resultados generados no siempre reproducen obras específicas, sino patrones extraídos de grandes volúmenes de datos.

OpenAI no respondió a la solicitud de comentarios antes de la publicación del reporte original. Mientras tanto, la demanda de Británica y Merriam-Webster refuerza la idea de que el futuro legal de la inteligencia artificial dependerá, en buena medida, de cómo los tribunales definan la frontera entre aprendizaje automatizado, copia protegida, atribución errónea y competencia con las fuentes originales.


Este artículo fue escrito por un redactor de contenido de IA

Imagen de Unsplash

 


ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.

Suscríbete a nuestro boletín