OpenAI y Microsoft enfrentan una nueva demanda del CIR

OpenAI y Microsoft se enfrentan a una nueva demanda del Centro de Informes de Investigación (CIR). El CIR dice que OpenAI utilizó contenido publicado por los sitios web Mother Jones y Reveal para entrenar versiones anteriores de ChatGPT.

Lea también: OpenAI elimina la entrada ChatGPT tras la polémica de Scarlett Johansson 

El CIR afirma que OpenAI utilizó su contenido sin permiso ni promesa de compensación. CIR, fundado en 1977, gestiona la revista estadounidense sin fines de lucro Mother Jones y el podcast Reveal.

CIR demanda a OpenAI y Microsoft por infracción de derechos de autor

El Centro de Reportajes de Investigación (CIR) presentó la demanda ante un tribunal federal de Nueva York el jueves . La organización sin fines de lucro acusó a OpenAI y Microsoft de utilizar su contenido sin permiso ni compensación. El CIR afirma que OpenAI violó las leyes de derechos de autor al utilizar su contenido para entrenar ChatGPT.

Monika Bauerlein, directora ejecutiva del CIR, dijo: “Este comportamiento de aprovechamiento no sólo es injusto, sino que también constituye una violación de los derechos de autor. El trabajo de los periodistas, en el CIR y en cualquier otro lugar, es valioso y OpenAI y Microsoft lo saben".

En la denuncia oficial, el demandante contrató a un científico de datos para analizar la base de datos OpenWebText . OpenWebText es una aproximación de WebText , que es un corpus de páginas web raspadas creadas por OpenAI. El científico de datos descubrió que el conjunto de datos contiene 17.434 URL de Mother Jones y 415 de Reveal. OpenWebText y WebText tienen números ligeramente diferentes de artículos de Mother Jones porque el proceso de extracción se produjo en días diferentes.

El demandante afirmó en la denuncia oficial:

“Al poblar sus conjuntos de formación con obras de periodismo, los acusados ​​tenían una opción: respetar las obras de periodismo o no. Los acusados ​​eligieron lo segundo."

Lea también: El científico jefe de OpenAI, Ilya Sutskever, se despide

OpenAI utilizó dos algoritmos, Dragnet y Newspaper, para construir la base de datos WebText. Dragnet está diseñado para separar el contenido principal del artículo de otras partes del sitio web, como el encabezado, el pie de página, el título, el nombre del autor y los avisos de derechos de autor. Cuando OpenAI eliminó el sitio web de Mother Jones, eliminó todo lo que había en el pie de página y el encabezado. Además, el creador de ChatGPT eliminó el aviso de derechos de autor y la información sobre los términos de uso según la queja .

Además, el demandante afirma que Microsoft sabía que las URL eliminadas tenían contenido periodístico sin nombres de autor, títulos ni avisos de derechos de autor, lo que facilitaba la infracción de derechos de autor por parte de Bing AI y ChatGPT.

El CIR busca ganancias de OpenAI y Microsoft y daños reales o legales. La cantidad indicada es un mínimo de $750 por trabajo infractor y $2,500 por violación de la DMCA.

OpenAI enfrenta acciones legales por parte de otras publicaciones

Esta no es la primera demanda presentada contra OpenAI por infracción de derechos de autor. Desde el lanzamiento de ChatGPT a finales de 2022, OpenAI y Microsoft se han enfrentado a numerosas demandas de grandes nombres como el New York Times, The Intercept, el New York Daily News y el Chicago Tribune.

Lea también: Los empleados dicen que OpenAI y Google DeepMind ocultan los riesgos de la IA

Mientras tanto, algunas editoriales importantes y gigantes de Internet han firmado acuerdos de licencia con OpenAI, dándole acceso a sus archivos. Estos incluyen la revista TIME, News Corp, Financial Times, Vox Media, Associated Press, The Atlantic, Stack Overflow y Reddit.


Reportaje criptopolitano de Randa Moses