Codicia, cortoplacismo… y entrenamiento de algoritmos

La Data Provenance Initiative, un colectivo de investigadores en inteligencia artificial voluntarios de todo el mundo, ha publicado un interesantísimo estudio académico, «Consent in crisis: the rapid decline of the AI data commons«, en el que revela cómo, de los miles de dominios recogidos en los principales repositorios de datos de la red utilizados habitualmente para el entrenamiento de algoritmos generativos, el 5% de todos los datos y el 25% de los datos procedentes de fuentes de muy buena calidad han sido ya objeto de restricciones mediante cláusulas específicas que impiden su uso.

Una auditoría de más de catorce mil páginas web rastreables demuestra cómo las preferencias de consentimiento para el uso de esos datos están evolucionando y convirtiéndose en modelos cada vez más cerrados y restringidos, con una fuerte proliferación de cláusulas específicas referidas al uso para entrenamiento de algoritmos, marcadas diferencias en las restricciones a los desarrolladores de inteligencia artificial, e inconsistencias generales entre las intenciones expresadas por los sitios web en sus términos de servicio y en su archivo robots.txt.

Yo mismo estoy viendo cómo restricciones de ese tipo afectan a mis propios contenidos, particularmente a aquellos cuya licencia depende de terceros, que ahora me piden que especifique en mis términos de licencia – en mi caso, siempre invariablemente los más abiertos – si admito o no el uso para entrenamiento de algoritmos, con la evidente intención de comercializarlos. En mi caso tiene escaso sentido dado que esos mismos datos están disponibles en mis páginas en español e inglés sin ningún tipo de restricción, pero demuestra cómo muchos licenciatarios han visto una supuesta mina para el enriquecimiento y están tratando, cada vez más, de tomar control sobre ella.

El cambio supone una evolución importantísima y, desde mi punto de vista, muy negativa, de la red tal y como la conocimos. En los principios de internet, todo lo que subíamos a un servidor estaba allí a disposición de todo aquel que pudiera tener acceso al mismo, y salvo datos corporativos o privados, la inmensa mayoría de la información estaba disponible en abierto. Algunos extrajimos un enorme partido de eso precisamente permitiendo que la información que creábamos circulase lo más libremente posible, y obteniendo por ello un plus de visibilidad muy interesante y, sobre todo, muy eficiente para nuestro trabajo, en mi caso, la educación. Internet era un ideal de conocimiento abierto y libre acceso a contenidos de todo tipo que, de hecho, se convirtió en un factor fundamental en su popularización.

Ahora, cada día más, ese tipo de actitudes y preferencias por las licencias abiertas de contenido empiezan a parecer cada vez más un mero romanticismo, un vestigio lejano de una red que cada vez se parece menos a sí misma, y que evoluciona hacia un concepto de propiedad de los datos y de supervisión de «quién quiere utilizarlos para qué cosa y cuánto me va a pagar por ello» que supone una actitud profundamente codiciosa, egoísta y, sobre todo, cortoplacista.

En su momento, todos queríamos que Google accediese a nuestro contenido, y es más, que accediese cuantas más veces y con menos restricciones, mejor. Entendíamos que el beneficio estaba en ese incremento de la visibilidad, y que Google se hiciera, gracias a ello, inmensamente rica, era simplemente un precio que había que pagar a cambio de un servicio razonablemente bien hecho. Ahora, que algunas compañías como OpenAI y similares se puedan hacer ricas comercializando algoritmos como ChatGPT nos resulta supuestamente algo inaceptable, y todos pretenden poner restricciones para ser bendecidos con contratos de uso exclusivo.

El problema, obviamente, es que no solo esas grandes corporaciones se benefician del entrenamiento de sus algoritmos con los datos de la red: también hay muchos proyectos académicos, no comerciales o sin ánimo de lucro que son susceptibles de generar importantes beneficios para la comunidad en general, que dejan de ser viables por no poder tener acceso a unos datos que, al menos cuando se subieron a la red, estaban ahí para que cualquiera pudiera acceder a ellos. Ahora, ese acceso ilimitado es visto como una especie de ofensa, y todos pretenden obtener un rendimiento a corto plazo en forma de licencia cerrada de algún tipo.

Una pena, la verdad. Yo voy a seguir manteniendo mis datos, como siempre lo he hecho, completamente abiertos, y si se usan para simplemente leerlos o para entrenar algoritmos es algo que no solo no me preocupa, sino que me hará muy feliz si ocurre muchas veces. Mis contenidos en español están aquí para que cualquiera pueda leerlos sin ningún tipo de restricción. Mis contenidos en inglés están en Medium, que tiene acceso restringido, pero siempre que los veáis enlazados desde mi página en castellano o desde redes sociales, los enlaces serán del tipo «friend link», que permite el acceso al texto completo del artículo. Me ha ido muy bien en la vida con esa política, y no pienso cambiarla por un ataque de codicia repentino, por mucho que estemos hablando de más de diez mil artículos en español y de seis mil en inglés, todos ellos correctamente etiquetados con sus contenidos.

De repente, los datos para el entrenamiento de algoritmos son algo por lo que, sí o sí, hay que cobrar, no vaya a ser que algunos se hagan ricos y nosotros no. «Oh, es que nos roban el contenido»… no, nadie te roba nada, el contenido sigue donde estaba, y simplemente ha sido accedido, que es precisamente la razón por la que lo pusiste ahí. Esos algoritmos cuyo entrenamiento hoy dificultamos van a convertirse en una forma fundamental de trabajar, de crear, de evolucionar y de vivir. Y mientras tanto, algunos pretenderán seguir dedicándose a tratar de impedirlo para lograr ganar el último euro, o sobre todo, que no lo gane otro, que en muchos casos, se lo tenía muy bien ganado por lo que había sido capaz de construir.

Para mí, simplemente triste.

This article is also available in English on my Medium page, «Greed, short-termism, and algorithm training: the evolving AI data landscape«

#001
Xaquín - 20 julio 2024 - 13:51
Vale, yo cambiaría lo de triste por mediocre, o, como mínimo, que le siga en modo adjunto, con el pertinente enlace «y».
Y puestos a llevarse agua al propio molino, resalto que ese mismo proceso con la propiedad virtual, fue el que se generó con la propiedad analógica.
No solo es el beneficio de lo que «TU hiciste», sino el poder de dirigir en parte el futuro. La creatividad de los demás (anterior y posterior) te la pasas por tu arco del triunfo y decides que tu mediocridad se vaya siliconando cada vez más.
#002
menestro - 20 julio 2024 - 14:01
Todos los textos que no tengan una licencia copyleft están sujetos a protección de derechos de autor, como suelo comentar.
Tal vez, sería conveniente una nueva licencia Creative Commons que garantizase un fair use para las publicaciones de uso libre en LLMs, aunque creo que está claro, que nunca se van a usar como fuentes de autoridad.
–
Disclaimer
Me he convertido en el público involuntario, la platea del escenario, de un sociopata narcisista (pericial), que me dedica sus azañas y composiciones.
Necesita un espectador que entienda su arte.
No hay nadie más apropiado ante quien hacer la representación.
( otro día, hablamos de Epi y Blas. Los del menage.)
#003
Benji - 20 julio 2024 - 14:32
Tal vez en el siglo XXII la humanidad se ría de estas tonterías, pero será un humanidad más hindizada y sinizada (ya que ellos no respectan las licencias ni por asomo).
Menos mal que según el cambio climático no tengo que preocuparme, acabará con nosotros antes de eso.
- JM - 20 julio 2024 - 15:48
  En la anglosfera no se comenta, pero en el siglo XIX los países emergentes de aquel entonces como EEUU, Alemania, Rusia, Japón, etc. no respetaban las linternas no por asomo y copiaban todo son el más mínimo rubor.
  Desde siempre los poderes establecidos son los que tienen las licencias y patentes y los emergentes los que no las respetan por pura necesidad.
  Cuantas más patentes y licencias tenga China más interés tendrá en unirse al club de países que avisan por respetarlas.
  - JM - 20 julio 2024 - 15:50
    Por cierto, quien se quejaba amargamente en aquel tiempo del poco respeto a las patentes era el imperio británico, entonces primera potencia económica mundial.
#006
Mantish - 20 julio 2024 - 16:01
Bueno, el tema con los buscadores (Google) es que accedían a tu información y a cambio te daban tráfico hacia tu página.
Con las LLMs no existe ese intercambio. No hay ningun beneficio para los que ponen sus datos a disposición. No es codicia, es sentido común
- JM - 20 julio 2024 - 17:44
  Tienes razón.
  Una vez extraída la información es un «si te he visto no me acuerdo».
#008
Qué hacer Madrid - 20 julio 2024 - 16:58
Bueno, a fin de cuentas se trata de una herramienta más que antes no existía, ahora esos robots trabajan por nosotros a la hora de escribir, desarrollar, programar, generar contenido o entrenar Inteligencias Artificiales. Yo creo que tampoco debemos cerrarnos a compartir lo que ya es público, tampoco nos resta, un mundo colaborativo en ese sentido nos permite avanzar a todos, de un modo u otro. Nos beneficiaremos al final ya sea directa o indirectamente. ¿No estáis de acuerdo?
- JM - 20 julio 2024 - 17:45
  Nos beneficiaremos… pagando a quienes se han aprovechado del trabajo de los demás.
  - Benjamix - 22 julio 2024 - 04:14
    Solo nos benificiaremos para una mayor innovación colaborativa
#011
Mauricio - 20 julio 2024 - 16:59
Dice Enrique:
De repente, los datos para el entrenamiento de algoritmos son algo por lo que, sí o sí, hay que cobrar, no vaya a ser que algunos se hagan ricos y nosotros no.
Este siempre ha sido un tema con muy diversos matices. Con el tiempo se ha visto que muchos proyectos, por ejemplo de software libre, no logran mantenerse a largo plazo y que los factores tiempo, esfuerzo y subsistencia no han sido tomados en cuenta por sus gestores a la hora de poner a libre disposición de todo el mundo el fruto de tu trabajo. Este mismo blog, si bien no cobra por sus contenidos, está auspiciado desde hace algunos años por el IE, como el mismo Enrique lo dijo en febrero de 2016, y es evidente que con el paso del tiempo no podía haber sido de otra manera si se quería mantener el ritmo y la calidad de los artículos.
Mucho se puede discutir sobre si hay que cobrar por el producto o por sus servicios anexos o si lo que se ofrece gratis es sencillamente un escaparate para mostrar las habilidades del desarrollador o del escritor y que este pueda obtener un puesto en una gran compañía o universidad o asegurarse un buen contrato. En esta línea, todos mencionan los casos de éxito como el de WordPress, su desarrollador Matt Mullenweg y su empresa Automattic, pero pocos se acuerdan de los buenos proyectos similares que se quedaron en el camino pese a sus múltiples esfuerzos, como fue el caso de b2evolution de François Planque y de tantos otros.
Si alguien, por ejemplo, escribe una novela y, de repente, una plataforma de streaming decide hacer una serie a partir de ella, es justo que el escritor reciba una justa compensación por su trabajo. La codicia y el cortoplacismo estarían del lado de la plataforma que busque obtener enormes ganancias a costa de los escritores o de los guionistas. Detrás de los grandes proyectos de inteligencia artificial se nota un ansia enorme de obtener ganancias gigantescas, aunque algunos declaren tener también una vertiente sin ánimo de lucro. En general, estoy a favor de que se propicie el libre acceso a los contenidos, pero en este caso las obras derivadas deberían ser igualmente libres.
- JM - 20 julio 2024 - 17:46
  De acuerdo.
- Marcos - 20 julio 2024 - 23:01
  A mi me ha generado un pensamiento, que suelo llevar a cabo la mayor parte de las veces.
  Cuando voy por la calle y hay un músico tocando, si tiende a gustarme lo que en ese momento estoy disfrutando, suelo echar mano al bolsillo. No le he pedido que se ponga a tocar, nadie se lo ha pedido. Y estoy disfrutando de ello, sin dar nada a cambio en principio.
  Pero entiendo que es un intercambio, Joe. Recibes algo, que es que esa parte de tu paseo sea más disfrutable, por lo que muchas veces lo considero debe ser retribuido. Obviamente no siempre porque no podría darle a una larga fila india de músicos callejeros, pero entiendo que es como funciona. Recibes y das.
  Como apuntaban, antes, al final, ahora el usuario final no está obteniendo realmente nada de esa intromisión por parte de ciertas empresas.
#014
Matt - 20 julio 2024 - 20:24
No creo que ese tan reivindicado caracter abierto de la internet original consistiera en que multinacionales se forraran aprovechandose de esos datos en abierto para entrenar un producto por el que ellos van a cobrar.
- Lua - 20 julio 2024 - 20:30
  Sin más cháchara.. Eso es asi
- Dedo-en-la-llaga - 21 julio 2024 - 02:21
  No, qué va… Y no solo eso, sino que tenían, y tienen, una agenda negra y oculta que es muchísimo peor…
#017
Javier - 20 julio 2024 - 20:31
En su momento, todos queríamos que Google accediese a nuestro contenido, y es más, que accediese cuantas más veces y con menos restricciones, mejor. Entendíamos que el beneficio estaba en ese incremento de la visibilidad, y que Google se hiciera, gracias a ello, inmensamente rica, era simplemente un precio que había que pagar a cambio de un servicio razonablemente bien hecho.
Todos queremos que Google (o quien sea) siga accediendo a nuestro contenido. El acuerdo tácito (al menos con Google) era:
Tú crea contenido relevante y valioso y yo se lo ofreceré a otros (mientras gano dinero vendiendo publicidad por esas keywords relacionadas).
Ok. es un trato justo.
Entonces que alguien me explique de un tiempo a esta parte Google ha cambiado su enfoque, priorizando cada vez más sus propios contenidos en los resultados de búsqueda en detrimento directo de quienes crean esos contenidos
Versión en inglés:
[Google just updated its algorithm. The Internet will never be the same]
El 29 de diciembre de 2023 escribiste en una entrada sobre Amazon titulada:
La enshittification de Amazon continúa:
Si quieres comprar algo, tendrás que buscar con mucho cuidado entre los resultados de tu búsqueda, porque muchos de los productos que veas serán imitaciones baratas que aparecen por encima de los originales simplemente porque han pagado más publicidad, otros serán simplemente productos peores pero a los que la compañía les pone su sello, y otros serán copias encargadas por la propia Amazon a un fabricante más barato, a modo de marca blanca.
¿Hay alguna diferencia con lo que hace Google? Aunque las formas de proceder son diferentes, porque son plataformas diferentes, el proceder tiene la misma raíz: cagarse en la gente.
La situación me hace acordar a lo que ocurrió en inglaterra en 1066 con Guillermo el Conquistador: el pueblo usaba el bosque para cazar y cultivar su sustento. Vino el reyezuelo y muy suelto de cuerpo dijo:
Me gusta la caza del ciervo así que ahora el bosque es mío...y ATPC… a quien no le guste…
Recién en 1217 (151 años después) Enrique III de Inglaterra tuvo que crear la Carta del Bosque para restaurar los derechos de la gente de poder subsitir de un medio que era usado (y cuidado por todos).
Forest law
#018
Gorki - 20 julio 2024 - 21:03
Tengo una sensación ambigua sobre este tema. Opino comot5u q12ue el que su be algo en abierto a la red, es que desea que su contenido llegue al público en general y por tanto no puede quejarse de que alguien utilice lo que ahí encuentra para lo que sea, aumentar su ciencia, su ocio, su información,… o por que no entrenar LLM’s. Por tanto creo que debería ser libre utilizar el contenido para entrenar LLM’s m, mas aun cundo esta en su mano señalar en la web que no deseaban que esa página fuera visitada por robots
Por otra parte, considero que si las LLM’s se hacen con objeto de ganar dinero y como una parte de la inversión es generar los datos para el entrenamiento y eso lo han sacado de la REd, lo lógico es que a sus creadores se les diera una participación de los beneficios.
Sin embargo, creo que existen aun múltiples materiales libres de derechos, bibliotecas digitales, hemerotecas, legislación oficial, archivos de museos, catálogos de productos,… como para poder entrenar perfectamente a los LLM, por tanto que se pongan las pilas los «entrenadores » y busquen por internet webs sin problemas y dejen a las otras sin visitar. Mi exo periencia es que si un periódico me ponen inconvenientes para visitar su web, no entro y el mismo contenido lo encuentro en otro sitio libremente,
.
#019
Diego - 22 julio 2024 - 06:53
La propiedad existe para determinar quien tiene derecho a usar un bien escaso en el que hay consumo rival (si lo usa uno no lo puede usar otro).
En la información no existe consumo rival, todo el mundo puede usar la misma informacion a la vez.
Por esto las leyes de propiedad intelectual son injustas ya que imponen por la fuerza un monopolio de ciertas ideas prohibiéndole a los demás trabajar libremente sobre ellas.
De esta manera el estado limita la cantidad de actores en la cultura y otras industrias permitiendo que sean más fácilmente manipulables y censurables. Y a la vez hace que sus privilegios sean dependientes del estado por lo que lo defenderán a muerte para mantenerlos.
No hay más que estudiar la historia y ver el origen las leyes de patentes y propiedad intelectual. Y puede trazarse muy facilente como quien sale beneficiado es siempre el gobernante y el sistema político que los implanta. Y el ciudadano medio perjudicado.
#020
Arcadi - 22 julio 2024 - 07:58
Tu situación no es comparable a la de la mayoría de sitios web. Tú eres profesor, has escrito libros y ofreces conferencias, y tu blog es solo una pieza más en la construcción de tu marca personal. Tienes múltiples canales para darte a conocer, y tus ingresos no dependen directamente del tráfico a tu blog.
La mayoría de los sitios web, en cambio, dependen de Google y el resto de buscadores para atraer tráfico y monetizar a través de publicidad o ventas de productos y servicios. Cuando los algoritmos utilizan su contenido para entrenarse, esos sitios pierden tráfico y potenciales ingresos, porque las respuestas generadas por los algoritmos no redirigen a los usuarios a las páginas originales.
Entiendo la reacción de estos sitios de querer proteger su contenido y exigir compensación. Aunque idealmente la web ha de ser un espacio abierto, la realidad es que muchos necesitan asegurar sus fuentes de ingresos. Los algoritmos generativos están cambiando el panorama del SEO y la generación de tráfico, y es natural que los creadores de contenido intenten adaptarse para no perder lo que tanto esfuerzo les ha costado construir.
#021
f3r - 22 julio 2024 - 09:15
Tienes razón Enrique. Yo en cuanto alguien «sube» una película u obra al «mundo real», es decir en cuanto se codifican esos bits en una cinta magnética en un sótano donde la compañía edita sus películas, o en cuanto la negra tinta cae sobre el papel en el despacho de su casa de un autor de best-sellers, ya considero que es libre para todo el mundo.
Por eso pirateo todo lo que puedo y deseo, igual que hacen estás compañías depredadoras (tanto las que buscan datos como las que los han obtenido «de gratis» de usuarios de internet como en Reddit).
Un verdadero jardín salvaje sin reglas….
PD:»también hay muchos proyectos académicos, no comerciales o sin ánimo de lucro que son susceptibles de generar importantes beneficios para la comunidad en general, que dejan de ser viables»
¿Puedes poner ejemplos? Porque el resto de tú artículo está defendiendo a gentuza sin escrúpulos y, la verdad, queda mal. Pero si puedes justificar que la gente normal podría beneficiarse de la apertura de datos, a lo mejor te compramos tu argumento.
#022
Michel Henric-Coll - 22 julio 2024 - 09:35
¿Sirven los episodios de «The Simpsons» para entrenar algoritmos de I.A.?