¿Cuánto valen los datos en la era de la inteligencia artificial generativa?

IMAGE: Ag Ku - Pixabay

La decisión de Reddit de licenciar sus contenidos a una compañía de desarrollo de algoritmos de inteligencia artificial para el entrenamiento de sus modelos, tras haber amenazado previamente a Google con cerrar su página a su buscador; y los supuestos acuerdos multimillonarios que Apple y OpenAI están ofreciendo a medios de información para poder entrenar sus modelos con sus noticias sin correr el peligro de ser denunciados por ello; están dando lugar a una pregunta muy interesante: ¿cuánto valen los datos, dónde están, y en qué condiciones pueden ser convertidos en dinero?

En el origen de la inteligencia artificial generativa está una decisión importante que las compañías dedicadas a ello parecieron tomar sin demasiada reflexión: la de entrenar algoritmos ya no con conjuntos de datos cerrados y específicos, sino con información extraída directamente de la web. Sentencias contrarias a los propietarios de páginas como LinkedIn, que parecían sugerir que si unos datos están publicados en abierto, podían ser recopilados mediante web scraping y utilizados libremente, se encontraron con otras opuestas como la de Clearview, que trataban de poner límites a esa práctica y evitar abusos evidentes.

Obviamente, la decisión de utilizar datos de internet tenía otro problema: la fiabilidad de esos datos. Si los datos utilizados estaban, por ejemplo, llenos de teorías conspiranoicas, pornografía infantil, ideologías extremas o estupideces variadas, su valor a la hora de utilizarlos para el entrenamiento de algoritmos podía descender sensiblemente, porque exigían poner en marcha costosos sistemas de supervisión que evitasen el uso de esos contenidos nocivos.

En ese sentido, aquellos productores de datos que tenían cierta autoridad o procesos que aseguraban la calidad parecían tener una ventaja. Pero también podían tenerla aquellos que generaban datos vinculados con, por ejemplo, sistemas de valoración social que seleccionaban los mejores contenidos y los separaban de otros de menor calidad. Y por supuesto, siempre que esos datos estuvieran de alguna manera etiquetados con ontologías razonablemente consistentes, que permitiesen poner un cierto orden en el caos.

A esa primera etapa de Wild West en la que las compañías de inteligencia artificial emplearon todo aquello a lo que podían acceder, legal o ilegalmente, para entrenar sus algoritmos, llegó una segunda etapa, en la que, lógicamente, comenzaron a recibir denuncias de todo tipo. De repente, artistasescritorescomediantes o el repositorio de imágenes Getty Images, alertados por la aparición de imágenes muy similares a las suyas o incluso de su propia marca de agua, comenzaron a formular denuncias contra estas compañías, hasta el punto de hacer que se replanteasen la viabilidad de su modelo de negocio. Era el copyright atacando de nuevo: teníamos la posibilidad de crear inteligencias con unas capacidades impresionantes, pero se interponían en ello los propietarios de los contenidos utilizados para entrenarlas.

Con cada nuevo algoritmo, vuelve a surgir la gran pregunta: ¿con los datos de quién se ha entrenado? Mientras, las empresas de desarrollo de algoritmos aducen que cualquiera podía pasear por un museo, inspirarse en el arte de un autor determinado y, si su habilidad se lo permite, crear obras similares sin pagar a nadie, sin encomendarse ni a dios, ni al diablo. Pero el argumento, comparado con el hecho de entrar a saco en una página y llevarse miles de datos mediante un procedimiento automatizado, parecía débil o como mínimo cuestionable, lo que nos lleva al momento actual: ansiosas por evitar contingencias legales, cada vez más compañías dedicadas al entrenamiento de algoritmos generativos están cerrando acuerdos con todo aquel que pueda tener datos susceptibles de ser utilizados para ello.

Lo cual nos lleva a la gran pregunta: ¿qué características deben tener esos datos para que puedan servir para el entrenamiento de algoritmos, y puedan ser protagonistas de uno de esos acuerdos millonarios? Intentemos revisar algunas variables y criterios:

  • Digitales: aunque parezca una tontería en este contexto, muchas compañías tienen ingentes cantidades de datos en formatos no digitales, o no fácilmente incorporables a un repositorio con el que pueda alimentarse el entrenamiento de un algoritmo. La no digitalización o la digitalización inadecuada, lógicamente, reduce el valor de un repositorio de datos.
  • Cantidad: parece evidente que, para generar un mínimo interés, una colección de datos debe ser razonablemente grande. A mayor tamaño, siempre que el resto de las variables no compliquen la cuestión, seguramente mayor valor. Si además hablamos de fuentes vivas, es decir, que continúan su actualización de manera consistente, el valor será mayor que el de colecciones cerradas, con tendencia a la desactualización.
  • Calidad: si tu repositorio de datos está plagado de informaciones que restan valor, desde contenido extremo o indeseable, hasta simplemente de calidad baja por otros factores (mal redactado, con faltas de ortografía o con errores conceptuales), pierde atractivo, porque requeriría un trabajo de limpieza que es preciso hacer de forma manual. La calidad del contenido, por otro lado, puede provenir o bien de la autoridad de su fuente, o bien de la presencia de sistemas sociales de puntuación que permitan filtrar el contenido en función de su calidad, aunque con ciertos límites. El ejemplo es claro: sin duda, los datos de Quora pueden ser seguramente muy valiosos, pero ¿lo serían los de un servicio como Yahoo! Answers? Muy probablemente no.
  • Etiquetado: la presencia de sistemas de etiquetado o taxonomías consistentes que permitan un acceso ordenado o sistemático a los contenidos es fundamental de cara a su valor para el entrenamiento de algoritmos. De nuevo, si estos sistemas no existen, sería preciso llevarlos a cabo de forma manual o mediante la extracción de palabras clave, que encarecen su uso.
  • Temática: algunas temáticas, obviamente, pueden resultar más interesantes que otras a la hora de entrenar algoritmos.
  • Consistencia: una colección de datos consistente, es decir, sujeta a criterios de homogeneidad razonables y, sobre todo, cognoscibles, es más valiosa que una en la que existan diferencias importantes en la distribución de sus variables.
  • Normalidad: de manera general, repositorios de datos en los que los vectores generados estén más cercanos a una distribución normal pueden llegar a ser más valiosos que aquellos que, por las razones que sea, estén fuertemente sesgados.
  • Licencia: es sin duda una de las grandes preguntas, ¿afecta el tipo de licencia al valor de los datos? Es muy posible que no, dado que con la excepción de los datos licenciados al dominio público, cuyo uso libre no parece discutible, incluso las licencias menos restrictivas, como la de atribución, son infringidas sistemáticamente por unos algoritmos que, a lo largo de su proceso de entrenamiento, parecen sufrir numerosas transformaciones y perder la trazabilidad de los datos que emplean, con lo que su posibilidad de llevar a cabo una atribución que permita respetar las condiciones de la licencia parece, como mínimo, cuestionable.

¿En poder de quién están esos repositorios de datos? ¿Qué valor puede tener la posibilidad de entrenar algoritmos con ellos? ¿Son finalmente los datos el petróleo del siglo XXI?


This article is also available in English on my Medium page, «How much is data worth in the age of generative AI

20 comentarios

  • #001
    Benji - 19 febrero 2024 - 12:37

    Entiendo que la wikipedia es parte de los datos de entrenamiento de todos, puesto que es abierta, descargable y está en varios idiomas bien redactado.

    Aquí creo que la UE podría jugar un rol fabuloso. Tenemos centenas de miles de leyes bien redactadas que operan unos marcos legales comunes y son de dominio público, así como las sentencias judiciales de 27 países. Esto debería dar a la IA un marco bastante sólido de redacción y de autolimitarse en función de esos mismos contenidos legales.

    Si le sumanos todos los libros y textos pre-1940 que están en abierto y todo lo que hay en bibliotecas públicas de texto cedido, creo que habría más que suficientes datos.

    Si necesita fotos etiquetadas: Pexels, Pixabay y otros son en abierto.

    Todo contenido Creative Commons en Youtube está disponible para video.

    Meta ha puedo a disposición varios modelos de datos para entrenar LLMs y hay otros en GitHub con más datos aun.

    El repositorio de PHP está abierto, con documentación y todo. La de Mozilla también. Cualquier código fuente en GitLab puede ser incorporado.

    No sé si hace falta más, pero para empezar es más que suficiente para tener datos fiables, etiquetados, buenos…

    • Gorki - 19 febrero 2024 - 13:29

      Exacto hay suficientes datos GRATUITOS; LEGALES Y DE CALIDAD, para no liarse robando datos de los que quieren cobrar. Los datos genéricos, que es un perro o quien es Napoleón, no valen nada. Otra cosa son los datos personales, que esos si, valen muy poco pero algo valen.

  • #003
    Roger - 19 febrero 2024 - 13:25

    Buen artículo. Sólo un pequeño apunte: el etiquetado ya no es imprescindible ya que estos sistemas son precisamente «unsupervised learning» o no supervisados.

  • #004
    menestro - 19 febrero 2024 - 16:05

    Lo que debería preocuparnos es la calidad de los «datos» de los que hablan de la última moda de la AI.

    Primero. ¿Qué inteligencias? Son chatbots. Y algoritmos generativos. Fingen conversaciones que no entienden.

    Tampoco aprenden de los datos, no estás aleccionando a un chatbot, no razonan. Usan los datos para generar conversaciones; no entienden nada de lo que describen esos datos.

    Solo entrenan la gramática, sintaxis y estructura del lenguaje, para sostener conversaciones. Los datos solo son relleno de esa capacidad de hilar discursos sin ninguna comprensión.

    No hay razonamiento simbólico.

    Los chatbots son un espejismo, una simulación de inteligencia. Y ya.

    No tienen ideas abstractas, solo cortan y pegan conceptos, para dar la impresión de entendimiento. Como los Youtubers.

    El entrenamiento de los algoritmos… y las prisas – comment-501151

    Esa preocupación por «la buena calidad de sus ideas», es puro narcisismo.

    Efecto Pigmalión

    Trato de comprender dónde está la dificultad para asimilar algo tan sencillo. Claro está, eso tiene que ver la naturaleza humana, no con la dificultad técnica.

    Reddit no puede ceder el uso de los textos con otro propósito.

    Legalmente, podrían encontrarse con un nuevo «Ellen Pao» – ‘We Screwed Up’

    Disclaimer Polar

    Me pagan por trabajar en esto, algo tengo que saber, qué remedio, hay que pagar el alquiler. No soy Youtuber, ni Twittero.

  • #005
    Juan T. - 19 febrero 2024 - 17:27

    Hombre, por fin un negocio que se le escapa a la cadena FOX.

    A ver que IA paga por semejante basura de datos.

    Vaya, se me olvido Grok AI, propiedad del amiguete que animó a todo el mundo a ver la imparcial entrevista del imparcial Tucker Carlson a Putin.

    Pues como Grok se realimente de los datos de los lúcidos votantes de Trump, que son los únicos que terminarán usandola, ya se como va a acabar el experimento.

  • #006
    Matt - 19 febrero 2024 - 18:19

    Una inteligencia artificial entrenada con los datos de Reddit.

    Ya solo falta la versión española basada en Forocoches.

  • #007
    Gorki - 19 febrero 2024 - 18:34

    ¿Sabe la llave inglesa que está apretando tuercas?,. No simplemente, ese trabajo lo hace bien, el golpear los clavos lo hace, pero lo hace solo medianamente bien.

    Cuando leo ciertos comentarios adversos sobre la AI me pregunto si se han tomado la molestia de probarla. He preguntado qué es la a la fusión nuclear a ChapGPT y me contesta:

    La fusión nuclear es un proceso en el cual dos núcleos atómicos se combinan para formar un núcleo más pesado. En este proceso, se libera una gran cantidad de energía. Este fenómeno es fundamental en el funcionamiento de las estrellas, donde la fusión de núcleos ligeros, como el hidrógeno, para formar núcleos más pesados, como el helio, libera energía en forma de luz y calor.

    En la Tierra, los científicos están investigando la posibilidad de utilizar la fusión nuclear como una fuente de energía limpia y sostenible. En un reactor de fusión, se intenta recrear las condiciones extremas que se encuentran en el núcleo de las estrellas para producir y controlar la fusión de átomos ligeros, como el deuterio y el tritio, para liberar energía. Aunque la fusión nuclear todavía no se ha logrado a escala comercial debido a los desafíos técnicos y de ingeniería, se considera una prometedora fuente de energía en el futuro debido a su abundancia de combustible, su alto rendimiento energético y su baja producción de residuos radiactivos.

    ¿De veras que una herramienta capaz de dar respuestas así no sirve para nada, porque no entiende lo que escribe?

    • Lua - 19 febrero 2024 - 18:45

      No se… preguntale a ChatGPT si entiende lo que te dice… XDDD

      Como modelo de lenguaje, puedo entender las respuestas en el sentido de que puedo analizar la estructura gramatical y semántica de las oraciones. Puedo identificar las palabras y frases clave y entender cómo están relacionadas entre sí para formar un mensaje coherente. Sin embargo, mi «entendimiento» se limita a la capacidad de procesar y generar lenguaje natural basado en los datos y algoritmos que se me han proporcionado, y no tengo una comprensión real o consciente de lo que estoy diciendo.

      • Gorki - 19 febrero 2024 - 19:16

        Cuando doy a un botón del ascensor no espero que entienda que quiera subir, solo espero que me suba.

        Cuando pido una repuesta a ChatGPT no espero que entienda mi pregunta, solo espero que la conteste razonablemente bien y esto lo hace mas del 90% de las veces.

        No entiendo por qué la critican porque no piensa, que les importa si piensa o no, lo importante son los resultados y los textos, voces, imágenes videos, músicas,… que da de respuesta la AI, son sorprendentemente útiles y valiosos. Eso esta al alcance de todos comprobarlo, no entiendo la cerrazón a no hacerlo y hablar de oídas.

        • Dedo-en-la-llaga - 19 febrero 2024 - 19:39

          Exacto, Gorki. Yo aún espero incluso otra cosa cuando pulso el botón: que no se caiga.

          Saludos.

          • c3po - 20 febrero 2024 - 12:36

            Opinar: Acción de plantar un pino !!!!

        • c3po - 19 febrero 2024 - 20:12

          Gorki

          La crítica no es porque ChatGPT no piense, el problema es que hay mucho bellotero que está convencido que piensa.

          Esos resultado son simplemente un copy paste bien formado de cosas que ya existen. El argumento de DotCSV que en cierta manera es creativo, es erróneo, si por ejemplo hacemos un retrato que tome 50% de Biden y 50% de Trump, el resultado formado porque no existiera antes como uno solo formado, no significa que sea original, simplemente es como el morphing de toda la vida,una mezcla de cosas existentes.

          ¿es eso útil? Pues depende de sus necesidades, esto es: una imagen, un texto, un snippet de un código. Resumiendo puede ser útil en la medida que tu sepas que te traes entre manos.

          El otro día lo intenté usarlo para documentar una chuleta de un comando(ir más rápido), y me puso las opciones al revés.. la razón porque la documentación fuente estaba fatal redactada.. yo supe ver el error, él se lió para alante….y le importaba dos pitos.¿util? algo, pero no lo califico ni de cerca como valioso

          • Lua - 19 febrero 2024 - 20:18

            Eso mismo…. para preguntar cosas que puedes sacar tu mismo de la Wiki, vale… como te pongas mas especifico, tiembla…

          • Dedo-en-la-llaga - 20 febrero 2024 - 11:15

            C3PO, como si no hubiese por los siglos de los siglos, gente que piensa que los otros a los que les preguntan piensan y encima lo que responden es 100% fiable.

            Como por ejemplo, seguir llamando «alucinaciones» a lo que no lo es por no tener ni pajolera idea de lo que es una «alucinación». Y así se propaga otra gilipollez más por parte de gente que nos hace creer que piensa, sabe mucho y aparenta tener mucha información. Cero patatero.

            Saludos.

        • Lua - 19 febrero 2024 - 20:16

          Efectivamente, sus respuestas pueden ser validas, pero sus «alucinaciones» son atroces. Y si tu no «entiendes» del tema que preguntas, te puede colar una gorda, como llevarte al tercer piso cuando tu querias ir al quinto. Y sales del ascensor creido de que efectivamente, estas en el tercero. Porque cuando no sabe, se lo inventa. Porque NO razona. Solo empalma frases segun palabras clave de tu entrada.

          «no entiendo la cerrazón a no hacerlo y hablar de oídas«

          Te has limitado a hacerle preguntas a chatGPT o has estado experimentando con diferentes modelos y LLM’s? Te los has instalado en local? Has quemado ya una GPU con tus pruebas? Has hurgado en codigo de alguno?

          Si tu respuesta solo es «si» a la primera… defineme «hablar de oidas»…

          Deberias prestar mas atencion a los comentarios de Menestro y C3PO.

          • Gorki - 19 febrero 2024 - 22:09

            ¿Qué se puede preguntar para que «alucine»? Ponme un ejemplo de alucinación que no hayas copiado de por ahí.

            Yo te puedo poner montones de ejemplos de temas complejos perfectamente explicados sin alucinar, Yo no digo que razone. porque entre otros motivos tampoco se como razona un cerebro, por tanto no se si ChapGPT razona o no.

            Aquí va uno

            User dime las diferencias de la filosofía de Immanuel Kant y la de Friedrich Nietzsche,
            ChatGPT Immanuel Kant y Friedrich Nietzsche son dos filósofos fundamentales en la historia del pensamiento occidental, pero difieren en muchos aspectos clave de sus filosofías. Aquí hay algunas diferencias principales entre ellos:

            Ética y moralidad:
            Kant: Propuso una ética deontológica basada en el deber moral y la razón práctica. Su ética se centra en el concepto del «imperativo categórico», que establece que las acciones deben ser juzgadas según si son universalizables, es decir, si pueden ser convertidas en una ley moral que se aplique a todos los seres racionales.
            Nietzsche: Criticó fuertemente la moral tradicional occidental y propuso una «moralidad de los amos» en contraposición a la «moralidad de los esclavos». Rechazó la idea de un conjunto universal de valores morales, argumentando que los valores deben ser creados por el individuo o la cultura en función de su voluntad de poder y perspectiva vital.

            Metafísica:
            Kant: Es conocido por su revolución copernicana en la filosofía, que propuso en su obra «Crítica de la razón pura». Argumentó que nuestros conocimientos no están determinados simplemente por la realidad objetiva, sino que son construidos por la mente humana a través de las estructuras a priori del entendimiento.
            Nietzsche: Rechazó gran parte de la metafísica tradicional occidental, incluyendo la idea de Dios como fundamento último de la realidad. En su lugar, abogó por un enfoque más naturalista y perspectivista, que enfatizaba la voluntad de poder como fuerza fundamental en la vida y la creación de valores.

            Concepción del conocimiento:
            Kant: Consideraba que el conocimiento se basa en la interacción entre la experiencia sensible y las estructuras a priori de la mente humana, como el espacio y el tiempo. Además, defendía la existencia de límites al conocimiento humano, especialmente en lo que respecta a las cosas en sí mismas.
            Nietzsche: Mantenía una postura más escéptica respecto al conocimiento humano. Sostenía que el conocimiento está inevitablemente influenciado por perspectivas y valores subjetivos, y que no hay acceso directo a una verdad objetiva más allá de nuestras interpretaciones.

            Concepción del individuo y la sociedad:
            Kant: Concebía al individuo como un ser racional autónomo, capaz de tomar decisiones morales mediante el uso de la razón práctica. Su visión de la sociedad estaba orientada hacia el ideal de una sociedad justa basada en el respeto mutuo y la igualdad de derechos.
            Nietzsche: Desarrolló la idea del «superhombre» (Übermensch), un ser que trasciende los valores tradicionales y crea sus propios valores. Veía a la sociedad como un campo de lucha donde los individuos compiten por el poder y la afirmación de su voluntad de poder.

            Estas son solo algunas de las diferencias clave entre las filosofías de Kant y Nietzsche. Cada uno de ellos tuvo un profundo impacto en la filosofía occidental y continúa siendo objeto de estudio y debate en la actualidad.

            ¿De veras sois capaces de obtener una respuesta así con solo consultar en al Wikipedia?

          • c3po - 20 febrero 2024 - 10:11

            Gorki

            Como inteligencia humana no estoy aquí para juzgarte, Enrique nos deja responder comentarios a Lua, Menestro y a mi mismo para que tengas experiencias más allá de tus posibilidades actuales actuando de Humanos Conversacionales Personalizados, y para contestar en parte a tus inquietudes. En última instancia, si sientes que has sufrido daño emocional como resultado de las acciones de alguien, sería aconsejable buscar asesoramiento para explorar tus opciones en esta situación específica.

            Resumiendo, Como inteligencia humana, no tengo la capacidad de mover un dedo literalmente o de actuar de manera independiente más allá de la tarifa tipo demo que Enrique nos ha contratado. Mi función no es responder a tus preguntas, más bien señalar que sigues necesitando asesoramiento formativo al respecto dentro de los límites de tus capacidades y circunstancias. Sin embargo, estamos aquí para ayudarte en la medida de lo posible dentro de mi capacidad para procesar y proporcionar información. Si tienes alguna pregunta o necesitas ayuda, no dudes en pedirla, y haré todo lo posible en volver a señalar que probablemente necesitas asistencia para dejar en creer que una IA no tiene alucinaciones.

            Se han acabado tus tokens.

          • Lua - 20 febrero 2024 - 10:32

            Discutir con Gorki siempre me recuerda a Argument Clinic XDD

  • #019
    Xaquín - 19 febrero 2024 - 19:15

    Dicen que un tal Jehová usó un cacho de barro para hacer un Adán. Luego le insufló un alma/mente, para que pudiera pensar por sí mismo (pero sin pasarse). Y luego, no quedando contento con ese método de «ser totalmente original», prefirió usar una costilla del llanero solitario y copió una Eva. Ya bastante mejorada , gracias al valor añadido de ser una copia. Algo que se puede comprobar en el día a día (si no eres machista). Y me toca «creer» a los autores de lo que sea, que ellos no copian , que son «originales».

    Así que la naturaleza se ha pasado millones de años combinando (copiando la base) el mismo tipo de partículas materiales, con pequeñas recombinaciones, para dar una molécula con vida (con alma).. . y luego ya… pero los creativos modernos me quieren hacer pasar por original lo que es una simple (o muy muy buena ) copia… la naturaleza (sea lo que eso sea) parece más modesta.

    ¿A qué jugamos?

  • #020
    Mauricio - 19 febrero 2024 - 20:17

    Enrique, la lista de características que mencionas me parece realmente interesante. Me quedan, sin embargo, un par de interrogantes: ¿Deben estos datos provenir de sitios que de una u otra manera tengan un formato de foro, como Quora, Reddit o este mismo blog, de modo que la IA aprenda a debatir sobre un determinado tema o esto es algo que no tiene ninguna importancia?

    Considerando lo conocido que es este blog en el mundo de habla hispana, ¿cuál sería el valor de sus entradas y sus comentarios? ¿Serías tú, Enrique, el dueño de todo o solamente de tus respectivas entradas? ¿Tendría cada comentarista el derecho a reclamar su parte del pastel correspondiente? ¿Podría ser que nos estuviéramos volviendo locos y que le estamos dando valor a lo que simplemente sería el equivalente a un conjunto de conversaciones de bar o estamos ante la posibilidad real de hacer una verdadera gestión de conocimiento y de aprovechar no solo los aportes de los expertos o de los creadores de contenidos sino también de quienes discuten con ellos?

Dejar un Comentario

Los comentarios están cerrados