La inteligencia artificial generativa sintetiza, no copia

OpenAI, y por representación, la inteligencia artificial generativa en su conjunto, obtiene el triunfo en el primer asalto de la batalla judicial planteada por Raw Story Media Inc. y Alternet Media Inc. con respecto al uso de sus datos en el entrenamiento de algoritmos.

Las dos compañías, que gestionan páginas de noticias, habían denunciado a OpenAI el pasado febrero por infracciones de los derechos de autor, por haber utilizado miles de artículos de sus páginas para entrenar a ChatGPT con el fin de que pudiese responder a indicaciones humanas. Según las compañías, el chatbot de OpenAI, ChatGPT, reproducía su material protegido por derechos de autor de manera «textual o casi textual» cuando se le solicitaba.

Las demandas acusaban a OpenAI de violar la Digital Millennium Copyright Act (DMCA) al eliminar la información de identificación de derechos de autor, tal como los nombres de los autores y los títulos, para facilitar la infracción, y pedían al tribunal daños monetarios de al menos $2,500 por cada violación y una orden que obligaría a OpenAI a abandonar el uso supuestamente indebido de su trabajo.

¿La respuesta de la jueza Colleen McMahon? Que la eliminación de información de gestión de derechos de autor, como los nombres de los autores o de los artículos de los medios, con el fin de entrenar herramientas de inteligencia artificial generativa (sin implicar la difusión de esas obras) no puede calificarse como un efecto adverso necesario para establecer la legitimación del caso, que por tanto queda desestimado. Los litigantes pueden volver a plantearlo, pero en principio, el resultado de esta primera batalla favorece a OpenAI.

¿Lo fundamental? Que la IA generativa sintetiza, no copia. Funciona como nuestros cerebros: vemos, escuchamos y leemos cosas, pero nuestra memoria no lleva a cabo un proceso de copia, sino un proceso de síntesis, y el recuerdo plasmado no constituye ni puede constituir una copia, sino una reconstrucción.

Además, los conjuntos de datos utilizados en el entrenamiento de algoritmos tienen un tamaño tan descomunal, que resulta extremadamente poco probable que se lleve a cabo un plagio de alguna parte en concreto. Dado que nos llevaría en torno a 170,000 años ser capaces de leer el conjunto de datos de la base de datos de entrenamiento de GPT4 leyendo ininterrumpidamente ocho horas al día, cualquier parte es cuantificablemente minúscula.

Frente a muchos que creen que la inteligencia artificial generativa, como Chat GPT o Midjourney, es algo inmoral porque supuestamente roba a los artistas con cuyas obras se entrenó, alegando que no hay nada nuevo en todo lo que generan y que se basan en datos extraídos de Internet sin el consentimiento de los creadores, hay que alegar que en ningún caso esos algoritmos obtienen suficiente información de ninguna fuente específica como para ser considerados un robo. Desde una perspectiva legal, la ley de derechos de autor requiere que cualquier infracción no solo muestre similitudes sustanciales con una obra original, sino que además, el supuesto infractor debe haber tenido acceso a la obra original. Y si bien es obvio que tuvieron acceso a las obras originales, no parece que ningún arte producido por ese procedimiento sea como tal un robo.

Desde sus orígenes con el Estatuto de la Reina Ana, los fundamentos básicos de las leyes de protección de derechos de autor dependen de la copia y de la distribución, y esos procesos no se están produciendo en el caso de la inteligencia artificial generativa. Todo contenido recién creado se basa, por supuesto, en contenido anterior en cierta medida, pero aquí no hablamos únicamente de una cuestión de nivel de similaridad, que es extremadamente pequeño al diluirse entre la enorme magnitud de los datos empleados, sino también de los métodos utilizados, que en ningún caso constituyen ni una copia, ni una distribución. Si la inteligencia artificial es un robo, todas las obras de arte desde la Edad de Piedra lo es. Los escritores y artistas de hoy fueron influenciados por los de ayer, e influirán en los de mañana.

Dejémonos de tonterías y de intentar elevar los derechos de autor a modo de protección contra absolutamente cualquier cosa: todo lo que está en internet a disposición pública, es decir, cualquier página a la que una persona puede legítimamente acceder, puede también ser accedida, y de hecho lo es, por procedimientos automáticos para su indexación, pero también para su consulta y, a partir de ahí, para el entrenamiento de cualquier algoritmo, del mismo modo que es accedida por una persona. En ningún caso puede pretenderse que una persona, cuando accede a una página, lleva a cabo una copia en su memoria, del mismo modo que no puede pretenderse que viola derecho de autor alguno cuando cuenta a otra persona lo que vio. El algoritmo está exactamente en el mismo caso.

Por supuesto que la inteligencia artificial generativa desafía a los derechos de autor, y es muy bueno que lo haga. Los derechos de autor tienen que limitarse, no extenderse, porque lo contrario nos llevaría a todo tipo de sinsentidos absurdos y a un nivel de razonamiento absolutamente retrógrado, contrario a toda innovación. Si no quieres que unas obras puedan ser utilizadas para el entrenamiento de algoritmos, no las pongas en internet a disposición de cualquiera: guárdalas bajo llave donde nadie las pueda ver. Pero dado que seguramente no las creaste para eso, estarías incurriendo en tu propio contrasentido, como llevamos años haciendo bajo unas leyes de propiedad intelectual supuestamente diseñadas para proteger al autor e incentivar la creación, pero que en realidad protegían a los propietarios de los medios por los que se distribuían esas obras, incluso cuando los autores llevaban ya muchos años muertos (y, por tanto, no podían ser incentivados para crear nada más).

Esperemos que la doctrina de la jueza siga prevaleciendo en futuras instancias. Lo contrario sería, simplemente, una barbaridad.

This article is also available in English on my Medium page, «At last, it seems the law recognizes that AI synthesizes, not copies«

#001
Dino - 9 noviembre 2024 - 10:16
La robot Ai-Da ha pintado un cuadro que se ha vendido en Sotheby’s por más de un millón de dólares. Es la primera vez que una robot vende su obra en una casa de subastas importante.
Su título: «A.I. God», un retrato de Alan Turing.
https://youtu.be/KawaK_PlGbc
- Gorki - 9 noviembre 2024 - 22:02
  Esta claro que ese retrato no vale un millón de dólares aunque alguien los de en una subasta. No es ni novedad, desede hace mucho, por lo menos desde 2008, hay un programa de IBM, Aaron, que pinta y hace cosas mucho mas bellas que eso. Como ahors Aaron hacíia cosas, que ni el mismo creador del programa entendía como las había hecho.
  Copio lo que escribí entonces
  Harold Cohen, un pintor y profesor de arte británico que desde hace muchos años está mejorando y ampliando un programa que pinta siguiendo las reglas tradicionales del arte pictórico, reglas de composición, de equilibrio del color, las proporciones del cuerpo humano, etc., más o menos las mismas reglas y normas artísticas que tradicionalmente se han enseñado a los alumnos de bellas artes.
  El software que da vida a Aaron aplica estas normas sobre la fotografía que le suministren, y a partir de ella, obtiene una “interpretación artística”. El algoritmo de interpretación pictórica genera pequeñas variaciones aleatorias a las reglas pictóricas, de forma que no repita de forma sistemática la misma imagen, el cuadro es único e irrepetible.
  De los artilugios de este tipo que tengo conocimiento, este es la que de forma más inquietante se acerca al proceso humano de elaboración pictórica. Hoy el mismo Cohen dice sorprenderse de los resultados obtenidos por su máquina y declara desconocer como llega a esas interpretaciones pictóricas.
  De alguna forma podemos considerar a Aarón un pintor, un artista, al menos así lo han considerado los directores de las galerías de arte y museos que autorizan la exhibición de su obra pictórica.
  HAROLD COHEN: UN PIONERO DEL ARTE GENERADO POR COMPUTADORA Y CREADOR DEL SISTEMA AARON
  Arte Digital – Aaron robot pintor
#003
Javier - 9 noviembre 2024 - 10:32
Estoy bastante de acuerdo con el artículo. Me ha surgido una pregunta.
Si la inteligencia artificial sintetiza y también crea ¿de quien son los derechos de autor de la obra creada por la IA. ?
1. Del que tiene la habilidad de crear un promp que extraiga esa información
2. Del dueño del algoritmo.
- Enrique Dans - 9 noviembre 2024 - 10:50
  De nadie. Los derechos de autor están legalmente vinculados a un autor humano. Una IA no es humana, y por tanto, no genera derechos de autor…
  - Juan T. - 9 noviembre 2024 - 11:57
    Bueno, eso está en discusión.
    Si la IA me genera una canción y la hago un simple cambio de acordes en un DAW ya es mía al intervenir un humano.
    La secuencia de acordes C – G – Am – F en DoM ha servido de base para cientos de canciones famosas, le cambias un poco la melodía y ya tienes otra con tus derechos de autor.
    Lo único que esta en discusión es cuanta intervención humana es suficiente para que se le den los derechos de autor al interventor.
    - Jorge P - 10 noviembre 2024 - 00:43
      Sin ser experto en derecho de propiedad intelectual, diría que el análisis será similar al empleado para determinar en qué medida existe plagio cuando un autor humano se inspira en la obra intelectual de otro autor humano para generar una nueva obra intelectual. En la medida en que la nueva obra intelectual sea lo suficientemente distinta de la obra original, podremos decir que estamos ante una obra no plagiada.
      Un criterio similar tendría sentido con las obras derivativas de una obra intelectual artificial: en la medida en que la edición, mejora y creatividad del autor humano haga que la obra derivada sea lo suficientemente distinta de la obra original artificial podremos defender que estamos ante una nueva obra intelectual que, por tener un autor humano, es susceptible de beneficiarse del derecho a la propiedad intelectual.
      - Jason - 11 noviembre 2024 - 07:07
        La diferencia aquí es que la IA al ser una máquina, puede ser usada como herramienta. Yo trabajo haciendo un cómic, y el resultado como tal no lo generó la IA, si no que ha sido un conjunto de generaciones que yo mismo ordené de cierta forma para transmitir un mensaje. Utilizar referencias de poses o contornos con controlnet (a veces hechas por uno mismo) para forzar a la IA a que genere cierto resultado, debería ser considerado parte de un proceso creativo artístico, ya que va más allá de un prompt. La IA por si sola no pudo haber hecho una de las páginas de mi comic, fue un trabajo en conjunto.
  - Gorki - 9 noviembre 2024 - 14:53
    Lo que es claro, es que no son del robot, como no es el derecho de autor de un libro, del ordenador, en donde se escribió, aunque tuviera autocorrector y autocompetara las palabras, Los derechos de autor son del señor que pergeño la idea en su cerebro y dio a el ordenador mediante el teclado, las instrucciones pertinentes para escribir la obra.
    .
    Ahora bien decir que la obra generada por una Ai no es de nadie, me parece arriesgado, porque supongo que alguien genero la idea de pintar a Ai-Da un retrato de Alan Turing. y que ademas seleccionó una determinada imagen, de los probables cientos de obras que hizo hasta encontrar el Prompt adecuado..
#009
menestro - 9 noviembre 2024 - 14:07
La han desestimado por un error de forma, ya que se demandó por eliminar el pie de página que indica que el contenido está sujeto a derechos, la advertencia, en vez de por el uso de esos contenidos.
Eso es debido a que el artículo 1202 de la DMCA impide la eliminación o suplantación de la autoría de una obra, ponerle tu nombre a un cuadro de Vangh Gogh y eliminar su firma, para apropiarse de una obra. Es el copyright management information (CMI) o no informativa de material sujeto a derechos de autor y su legítimo propietario. En Europa no es necesario. Todos los materiales están protegidos por defecto.
Los abogados lo plantearon así para asegurar un juicio rápido, sin entrar en si la obra era un plagio o no, sino como una simple violacion formal del copyright, al no mostrar la autoria en los resultados de ChatGPT.
Eso les facilita un acuerdo de derechos o royalties con la empresa, utilizando la Tort Law.
Y además, esto es muy muy importante para verificar el origen de las aserciones del chatbot.
La juez no ha dicho ni pío sobre si «sintetizan» o si es un plagio, el producto del procesamiento digital de una obra original, más bien al contrario.
En Europa el simple procesamiento digital de una obra con copyright es una infracción del mismo. Da igual lo que salga y si lleva una traza de su origen, que no es ninguna creación, ya está advertido.
La juez quiere entrar en el fondo de la cuestión y juzgar el perjuicio real de utilizar materiales con copyright sin permiso del autor en el entrenamiento generativo, para meterle una castaña de órdago a OpenAI y sentar un procedente en NY en vez de un acuerdo económico o reclamación de derechos pactada por las partes.
Así que le ha dicho a los abogados del NY Times que la eliminación de la advertencia legal no constituye por si misma una infracción de derechos de autor mensurable económicamente. Qué pidan más.
El resto, paja.
Copyright management information (CMI) 1202 of DMCA
–
- Gorki - 9 noviembre 2024 - 17:59
  La menos reconoces que los jueces no han dado la razón al NYT, Puede que sea que los letrados del NYT sean unos maulas que lo plantearon mal., pero han perdido el juicio, de eso no hay duda. .
- menestro - 9 noviembre 2024 - 18:05
  Fe de corrector
  El copyright management information (CMI) es la nota informativa o aviso legal de la autoría que figura en los textos de los periódicos y que debe aparecer en las respuestas de ChatGPT de forma obligatoria según la DMCA (Digital Millennium Copyright Act)
  Su eliminación es lo que se estaba juzgando, según el párrafo 1202 de la DMCA.
  Van Gogh es el pintor.
  El móvil.
  –
#012
Dedo-en-la-llaga - 9 noviembre 2024 - 15:36
Después de esto, ya estaba todo claro aunque, aparentemente, NO tenga nada que ver… ¡¡¡16 años!!! Supérame esto jueza McMahon, ¡¡¡Estado de derecho a tope, yipi kai yei, hijos de p…!!!
https://www.xataka.com/legislacion-y-derechos/punto-final-para-caso-seriesyonkis-constitucional-se-aparta-presiones-confirma-absolucion
#013
Gorki - 9 noviembre 2024 - 15:36
Vuelvo a repetir loque dije e3i 18 de Agostp en este blog y creo que recordar otras veces
Los derechos de autor se diseñaron en el siglo XIX, cuando hacer una copia precisaba de costosos sistemas , (una orquesta, una imprenta,,…), que hacían posible controlar cuantas copias se hacían del original.
La tecnología ha permitido que todos no solo podamos hacer una copia de una obra sin coste, sino que de ella, extractamos otras características no previstas por el autor, como cual la proporción de palabras de cuatro letras que utiliza, el tiempo mas utilizado de los verbos, o cual es la palabra que mas veces sigue a la palabra «anduvo».
Urge hacer una nueva Ley de la Propiedad Intelectual, que defienda los derechos al autor de los ingresos derivados en la explotación de su obra literaria (o artística), pero que no impida que otros la utilicen para asuntos que nada tiene que ver con la obra. (como son las estadísticas realizadas sobre su obra).
#014
Xaquín - 9 noviembre 2024 - 17:02
«nuestra memoria no lleva a cabo un proceso de copia, sino un proceso de síntesis, y el recuerdo plasmado no constituye ni puede constituir una copia, sino una reconstrucción» (EDans).
Así que seguimos así… mucho siliconado programador de dobladidllo, pero aún no se asumió que la memoria de un ordenador es más creativa que la mitad de los votantes del Pato Trump, por ejemplo.
Porque dudo que esa «simple » memoria, no almacene la a información de una forma perfectamente ordenada, para poder sacarla muy rápidamente y ponerla en la RAM. Lógicamente hablo dela ROM. Y supongo una ROM con un mínimo de complejidad en montura de circuitos logísticos, como para considerar que la información es la misma, pero, al mismo tiempo, puede estar dispuesta para que no sea exactamente la misma. Es una elucubración mental. En una ROM, porque en una IA no tiene nada de elucubración.
Así que, para hablar de la IA debería ser condición organizar lo mejor posible la propia IH.
En la enseñanza seguimos debatiendo la diferencia entre memorizar y chapar, porque los neodefensores de la memorización excesiva no se quieren manchar las neuronas usando el verdadero concepto al que aluden : si hablan de memorística es una cosa, si hablan de memorización es otra. Justo la contraria… en concreto nuestra ROM mediana no chapa. Ni tampoco copia, sin más !!!
Como bien dices RECONSTRUYE… y reconstruir un monumento no es copiar el monumento… reconstruir Dresde no es copiar Dresde y reconstruir , incluso la Cueva de Altamira, no es copiar al 100% la Cueva de Altamira original… aunque , en este caso, lógicamente, se busca más la copia de la imagen prehistórica que su mera reconstrucción.
Pero la IA no es tan mema, si la dirigimos correctamente en ese sentido (ya veremos cuando se independice, porque también las puede haber corrompidas), como para andar copiando cuevas… si reconstruye (importante la partícula «re»), entonces hará una obra nueva.
Y sí, es jodido, pero las cajeras y cajeros de supermercados también se pueden mirar el ombligo, y sentirse jodidos porque las IAs les pueden quitar parte de su trabajo (en este caso al 100%… como a los «creadores» se le puede quitar hasta un 50% como mínimo).
No hay forma de asumir el cambio de paradigma que supone la irrupción de la internet. Mucho más complicada ahora, porque los bots de tres al cuarto pueden ser IAs de alta gama. Pero tampoco los artistas del planeta Tierra son todos grandes creativos.
- Marcos - 21 noviembre 2024 - 16:38
  Creo que el término ROM no es aplicable a estos procesos. Ni la memoria humana ni las redes neuronales de la IA funcionan en modo «Read Only», y precisamente eso es lo que ha marcado la diferencia entre los sistemas de acceso a la información y los sistemas generativos.
  Puedo estar equivocado, desde luego.
#016
Martín Omar Pino P - 10 noviembre 2024 - 03:47
Cambian tanto los tiempos.
Cierto que hacer cualquier obra hacen años era un poco demorado por la carencia de material de apoyo.
Hoy casi todo al alcance de la mano.
#017
Prado - 10 noviembre 2024 - 18:13
Creo que es una reflexión acertada. A menudo pensamos que la inteligencia artificial podría sobrepasar los límites de los derechos de autor, pero, como señala el artículo, ¿no hemos hecho los humanos algo parecido a lo largo de la historia? Hemos cambiado acordes y letras de canciones, hemos adaptado personajes en juegos conservando la misma mecánica, o incluso hemos reinterpretado historias de películas al cambiar a los protagonistas. Todos tomamos ideas de lo que hemos vivido, de nuestros recuerdos y de lo que nos ha inspirado. La IA, en ese sentido, es como un gran cerebro que almacena y organiza datos en su memoria.
Si no queremos que algo se replique o se transforme, quizás la única opción sea no compartirlo. Pero si el objetivo es destacar, la clave está en la originalidad. Y, al final, lo que realmente importa es que, si una máquina quiere replicarte, es porque tu obra tiene algo único y especial. Así que siéntete afortunado: ¡hay que ser muy auténtico para que hasta las máquinas!
#018
Manuel Arenas García - 15 noviembre 2024 - 14:12
Decir que si no quieres que tu obra se use para alimentar algoritmos, pues no la pongas en Internet, es algo así como decir que si no quieres que te saquen una foto te quedes en casa.
Hacer fotos generales se permite siempre y cuando el sujeto no sea el centro de atención exclusivo o esté en primer plano, en cuyo caso se tiene que pedir permiso para hacer la foto.
Los videos y las imágenes que se graban con cámaras en la calle están sujetas a normativas muy estrictas.
Las empresas de IA «hacen fotos» de primer plano de todo lo que hay en Internet. Para usos donde interviene ánimo de lucro.
Yo sería más precavido a la hora de argumentar con absolutos como «es exactamente igual», porque ni siquiera Vd sabe cómo funcionan los algoritmos de IA.
Las reglas del arte, escritas o no, se derivan de usos, costumbres y métodos esencialmente humanos. Los modelos de IA son diferentes. La IA no usa los datos para crear nada nuevo. El ser humano sí. Lo único que hace la ia es crear modelos estadísticos. Y a mi me parece justo que haya empresas y personas que no quieran que sus obras se usen para alimentar algoritmos.
Decir que si no quieres que tu obra alimente algoritmos de IA no las pongas en Internet es bastante radical. Internet no se creó para servir de gasolina a empresas como open Ai del mismo modo que la calle no es un estudio fotográfico.
El progreso y la innovación no consisten en hacer lo que se pueda hacer, sino en hacer lo que es conveniente hacer.
La IA de momento es una máquina de consumir energía para aumentar cuentas de resultados de empresas. Sus otros usos siguen siendo marginales o muy específicos en los tiempos de la IA generativa, La IA predictiva es la que habría que seguir apoyando.
Por lo pronto chatgpt no nos serviría para decidir si nos quedamos en casa o nos vamos si acecha una Dana. Los modelos meteorologicos sí.
Un poco menos de intensidad tecnológica vendría bien. La ingeniería sin ciencia, ética, antropología y otras áreas de conocimiento, puede convertirse en un arma.
Un saludo