Copyright traps para LLMs: todos sabemos cómo acaba esto

IMAGE: Marco Schroeder - Pixabay

Ante la proliferación de algoritmos generativos entrenados con todo tipo de contenido, algunos investigadores están trabajando en el concepto de copyright traps, fragmentos de texto ocultos que permiten a los escritores y editores marcar sutilmente su trabajo para detectar más tarde si se ha utilizado en modelos de inteligencia artificial o no.

Todos, absolutamente todos sabemos cómo acaba esto. La industria del copyright se ha dedicado durante toda su historia a acusar a todo aquello que se mueve de plagio, mediante todo tipo de metodologías que comienzan por la detección de patrones similares, y terminan con «los sentimientos y con las sensaciones» de que algo «evoca el sentido y el sonido» de algo.

Indignadísimos por la perspectiva de que una serie de compañías estén «alimentando a sus algoritmos» con todo tipo de información, y viendo la posibilidad de ganar un buen dinero por no hacer nada, creadores de contenido de todo el mundo se disponen a acudir a Github para instalar «trampas de copyright» que permitan «demostrar» que un algoritmo se ha alimentado de sus obras, y puedan utilizarlo para reclamar ese dinero ante un juez.

Lo siento, pero toda esta cuestión es simplemente asquerosa. Si has creado algo, jamás vas a poder evitar que alguien que lo ha escuchado, visto o leído se inspire en ello para crear otras cosas. Así funciona la creatividad humana, a partir de estímulos que, en muchas ocasiones, provienen de las creaciones de otros. Así se ha hecho toda la vida, y así se va a seguir haciendo. Que ahora, como esa creatividad ya puede proceder no solo de los cerebros de las personas sino también de la recombinación que hace un algoritmo, eso tenga que tratarse de manera diferente y acosar hasta el límite a las compañías que entrenan esos algoritmos para poder arrinconarlas ante un juez y obligarlas a pagar es simplemente perverso, y terminará mal. Lo hemos visto ya en demasiadas ocasiones: acusaciones falsas o infundadas, compañías que terminan pagando por no complicarse la vida en largos procesos judiciales, persecuciones y cazas de brujas.

Hace mucho tiempo que los derechos de autor no protegen a los autores, sino a grandes conglomerados industriales que se alimentan de la creatividad de los autores y les dejan generalmente las migajas de las ganancias obtenidas. Que ahora se pretenda pervertir y dar la enésima vuelta de tuerca a los oxidados mecanismos del copyright para, supuestamente, inventar una trampa indetectable que permite señalar inequívocamente a quien entrenó un algoritmo con un contenido determinado es tristísimo, y más si esos algoritmos van a terminar estando en todas partes y dando lugar a enormes mejoras de la productividad de las que nos beneficiaremos todos.

Acostúmbrate: si creas algo, lo pueden ver, leer o escuchar humanos o máquinas, y de una u otra manera, deben tener la libertad de basarse en ello para producir otras obras, que no serán idénticas, sino producto de una recombinación más o menos inspirada. Tratar de perseguir y arrinconar ese comportamiento porque detrás hay unas empresas que se lucran con ello es como tratar de perseguir a todos los autores que, en algún momento, se inspiraron en otro… es decir, a todos los autores.

No estoy defendiendo a las compañías que entrenan a sus algoritmos con lo que les da la gana, que no me pagan nada en absoluto: lo que estoy diciendo es que el concepto de copyright, como todo, tiene que adaptarse a su tiempo y a su contexto, y no puede ser utilizado como una herramienta para azotar a todo aquel que inventa una nueva manera de hacer las cosas. La superposición del supremo egoísmo del copyright con el desarrollo de supuestas «pruebas irrefutables» electrónicas es sencillamente pavorosa, y amenaza con llevarnos a épocas muy oscuras si se generaliza, a luchas absurdas, a persecuciones y a cazas de brujas.

No, haber escrito, dibujado o compuesto una vez algo no te debería dar derecho a que cualquiera que se inspire en ello, sea humano o algorítmico, tenga que pagarte por ello. No tiene sentido. Y del mismo modo que no puede demostrarse cuando se trata de la inspiración que sucede en el cerebro de un humano porque hablamos de mecanismos inescrutables, no tiene sentido perseguir a la máquina porque, en ese caso, se entreno utilizando un contenido determinado, que habrá utilizado o no para producir una nueva obra. Dejémonos de maximalismos y de dinero fácil, y pasemos página en la forma de interpretar el copyright, que bastante daño ha hecho ya.

5 comentarios

  • #001
    Gorki - 27 julio 2024 - 14:40

    Los derechos de autor alimentan a la SGAE no a los autores.

    Responder
  • #002
    menestro - 27 julio 2024 - 14:43

    La creatividad humana no tiene nada que ver con lo que hace un algoritmo cuando procesa datos.

    Cualquier símil es puro desconocimiento o una ilusión, de personas con una idea distorsionada del procesamiento digital que realizan los algoritmos generativos.

    No sé que sentido tiene difundir una idea falsa de esta naturaleza.

    El procesamiento digital de datos con propiedad intelectual está sujeto a derechos de autor.

    Si no se quiere ver un Canon sobre textos no registrados, más vale dejar de confundir los conceptos. Las marcas de agua o los códigos leídos de las impresoras en el papel moneda, son solo un botón de muestra, cuando lo cierto es que sin licencia explícita, es un error escrapear textos (RAE required)

    “What ChatGPT is, in this instance, is replication as travesty. (…) on the surface, indistinguishable from an original, but it will always be a replication, a kind of burlesque. (…) is destined to imitate and can never have an authentic human experience, no matter how devalued and inconsequential the human experience may in time become.”

    Nick Cave

    Vivimos en una era la que devaluamos la experiencia y la emoción humana genuina, para tratar de aproximarnos a la insensibilidad de las máquinas, una forma de embrutecimiento, de anestesia vital. Cogemos fragmentos dispersos para formar una identidad incompleta, una cultura del compostaje que haría estremecerse al mismo Andy Warhol.

    Small Pieces Loosely Joined (a unified theory of the web)

    «Pasen y vean, a continuación la legión de monos con conexión a internet»

    Émile Borel

    Responder
    • Gorki - 27 julio 2024 - 16:20

      Explica en que consiste «el procesamiento digital que realizan los algoritmos generativos» y por que se diferencia del que realiza «la creatividad humana». Yo no veo cual es la diferencia.

      Responder
  • #004
    JM - 27 julio 2024 - 16:36

    Creo que el problema no radica tanto en que las creaciones de los autores vayan a ser explotados por las grandes empresas de gestión de derechos a cambio de unas migajas, lo cual es cierto.

    Sino que los autores sean explotados ADEMÁS por nuevas empresas utilizando LLM y está vez es posible que no les queden ni las migajas.

    Claro está que el problema no radica tanto en los nuevos LLM sino en la explotación actual de los autores.

    Sin embargo las empresas de gestión de derechos están utilizando la indignación de los autores para atacar al nuevo rival.

    Naturalmente no quieren compartir los frutos de la explotación de los autores.

    Responder
  • #005
    Xaquín - 27 julio 2024 - 16:58

    El primer mono que se bajó del árbol quería cobrar derechos a los que le siguieron. Pero aún no había bajado el que iba a ser el primer abogado de la historia.

    Homero , más bien los protohomeros, se basaron en la leyendas sumerias, para fabricarse su propia novela de aventuras. Y de Homero salieron todos los novelistas posteriores.

    El Autotune mejora la voz de un cantante, pero nadie se molesta en no herir su «sensibilidad», reconociendo su parte en el progreso musical del «autor».

    El otro día escuche a los Rolling tras The Beatles y me di cuenta que el inicio de las canciones era prácticamente igual.

    Los raperos modernos no hacee otra cosa que imitar a James Brow (entre otros), eso sí con un fondo musical de mierda (es una opinión).

    Oppenheimer (como todo buen científico) se apropió de ideas concebidas antes por otros científicos y científicas, y ni siquiera tuvo que dejarlo escrito en una bibliografía (en general).

    Y, ya puestos, la naturaleza (sea lo que eso sea) tampoco cobra nada, por dejar que un mono mejorado frote dos palitos y haga fuego. Como si el frotar los palitos fuese una idea muy elaborada, en noches de profunda meditación. Y no simple observación de algo que hacían determinados animales antes que él. Pero sin la maravilla evolutiva que supone tener una mano con altas capacidades mecánicas. un avance tecnológico, aunque suene rara la palabra tecnología, aplicada a un avance mecánico natural.

    Responder

Dejar un Comentario

Los comentarios en esta página están moderados, no aparecerán inmediatamente en la página al ser enviados. Evita, por favor, las descalificaciones personales, los comentarios maleducados, los ataques directos o ridiculizaciones personales, o los calificativos insultantes de cualquier tipo, sean dirigidos al autor de la página o a cualquier otro comentarista. Estás en tu perfecto derecho de comentar anónimamente, pero por favor, no utilices el anonimato para decirles a las personas cosas que no les dirías en caso de tenerlas delante. Intenta mantener un ambiente agradable en el que las personas puedan comentar sin temor a sentirse insultados o descalificados. No comentes de manera repetitiva sobre un mismo tema, y mucho menos con varias identidades (astroturfing) o suplantando a otros comentaristas. Los comentarios que incumplan esas normas básicas serán eliminados.

 

XHTML: Puedes utilizar estas etiquetas: A ABBR ACRONYM B BLOCKQUOTE CITE CODE DEL EM I Q STRIKE STRONG IMG