El entrenamiento de los algoritmos… y las prisas

IMAGE: LAION logo

LAION, acrónimo correspondiente a Large-scale Artificial Intelligence Open Network, es el repositorio más grande y abierto de imágenes etiquetadas (5,850 millones de pares de imágenes y términos en su última edición, LAION-5B), compilado a partir del scraping de imágenes de muchísimas páginas web, y utilizado de manera habitual por muchas compañías de inteligencia artificial como Google o Stable Diffusion para entrenar sus algoritmos generativos.

La compañía que lo gestiona es una organización sin ánimo de lucro establecida en Alemania y con miembros en todo el mundo, cuyo objetivo fundamental es un compromiso con el código abierto para poder poner a disposición del público modelos de aprendizaje automático a gran escala, así como repositorios de datos y código relacionado.

La existencia de repositorios de este tipo es fundamental para el avance de la inteligencia artificial, y genera una reducción de las barreras de entrada para que las compañías de todo tipo, incluidas las de código abierto, puedan plantearse el entrenamiento de sus modelos. Pero un estudio llevado a cabo por investigadores de Stanford acaba de determinar que esta base de datos masiva contiene varios miles de imágenes que se corresponden con pornografía infantil (CSAM), lo que supone una clara negligencia a la hora de recopilarlas.

Si una compañía como esta, sin ánimo de lucro, comete un error semejante fruto de una defectuosa supervisión de los materiales que recopila, ¿qué no estará pasando en otros repositorios utilizados para el entrenamiento de algoritmos de este tipo? Y sinceramente, más que los problemas derivados de las imágenes, me preocupan casi más los errores que puedan estar cometiéndose en la incorporación de material a bases de datos de entrenamiento para algoritmos de texto de tipo Large Language Model (LLM), en los que esos errores pueden ser mucho más difíciles de determinar y llegar a contaminar e introducir sesgos conceptuales inadvertidos en los modelos que posteriormente cueste bastante localizar.

El problema es el mismo de siempre: la prisa por poner en el mercado un modelo competitivo hace que, en modelos que requieren ingentes cantidades de datos para su entrenamiento, se pueda descuidar su origen, y terminemos generando modelos que establecen relaciones que pueden ser desde conceptualmente incorrectas, hasta auténticas barbaridades. ¿Qué nivel de responsabilidad deberíamos ejercer y exigir sobre las bases de datos que se utilizan para entrenar algoritmos que pueden llegar a convertirse en herramientas de uso tan generalizado como ChatGPT? Tras mucho especular sobre las «alucinaciones» que provienen de correlaciones relativamente bajas pero que, en ocasiones, los algoritmos consideran verdades absolutas y las enuncian como tales, ahora va a resultar que los algoritmos simplemente «alucinan» porque responden a barbaridades que, por prisas y falta de supervisión, fueron introducidas en su entrenamiento.

Si en una base de datos de imágenes etiquetadas se cuela nada menos que pornografía infantil, y considerando la increíble y aparentemente ilimitada profusión de basura conspiranoica, absurda y sin sentido que hay en la red… ¿qué no puede estar colándose en forma de texto en otras?


This article is also available in English on my Medium page, «This rush to get generative algorithms to market is going to cause big problems down the road»

18 comentarios

  • #001
    menestro - 21 diciembre 2023 - 11:39

    Lo que hay que aclarar, es que el entrenamiento de los algoritmos basados en LLM no se realiza con los datos o ideas que se encuentran en el texto.

    Los algoritmos generativos utilizan la gramática, sintaxis y estructura del lenguaje como entrenamiento, los datos e información son adicionales, para crear un relleno que dé contenido a la conversación.

    Los algoritmos de LLM no aprenden como las personas. Es un error conceptual.

    No están aprendiendo de tus ideas, Enrique. Lo siento.

    The Basics of Large Language Models

    En cuanto a los contenidos, introduce una cuestión muy interesante, que es la comprobación factual de la información que se recoge en la red. Pero ese es otro tema diferente y con un desarrollo más complejo que no cabe en un comentario.

    Por ejemplo, en la anécdota de mi anterior comentario, sobre que Google se ofreció a ser adquirida por Yahoo por un millón de dólares, aunque es verídica, no es precisa.

    En el libro «In the plex: how Google thinks, works, and shapes our lives» de Steven Levy, se aclara que la oferta inicial fue a Excite por un millón seiscientos mil, y George Bell rebajo las pretensiones de Larry y Sergei a 750.000$. En realidad, el punto de desacuerdo fue que excite no quería utilizar la tecnología del buscador, que siempre fue el aspecto diferencial de Google. Se sabe que se realizó la misma oferta a Yahoo y otros buscadores. Hasta que acudieron a Sequoia, firma de capital riesgo y les ofreció 25 millones.

    Esta imprecisión sucede porque el lenguaje tiene un componente contextual y, en un ámbito coloquial, se tiende a una economía de lenguaje y se utiliza una variedad diafásica del mismo. El lenguaje se torna impreciso para dejar abierta una comunicación más flexible, o se recurre a la elipsis.

    El lenguaje tiene diferentes realidades y propósitos, que le dotan de un contenido no formal. Si no, las anécdotas serían interminables y enciclopédicas, y omitiríamos su verdadero propósito.

    Un comentario al margen siempre debe ser telegráfico y descuidado. (TL;DR)

    Es lo que nos diferencia de los bots, como ChatGPT, que es completamente tajante en sus imprecisiones. Por poner un ejemplo.

    chinpúm.

  • #002
    Gorki - 21 diciembre 2023 - 12:13

    ¡¡¡ Con la censura hemos topado Sancho.!!!
    ¿Quién controla al censor?.- El Poder

  • #003
    Lua - 21 diciembre 2023 - 12:34

    ¿Qué nivel de responsabilidad deberíamos ejercer y exigir sobre las bases de datos que se utilizan para entrenar algoritmos que pueden llegar a convertirse en herramientas de uso tan generalizado como ChatGPT?

    TODAS, y más…

    Si en una base de datos de imágenes etiquetadas se cuela nada menos que pornografía infantil, y considerando la increíble y aparentemente ilimitada profusión de basura conspiranoica, absurda y sin sentido que hay en la red… ¿qué no puede estar colándose en forma de texto en otras?

    Ha costado casi un año, pero al fin vienes a lo que decíamos algunos…

    Para todo lo demas, los comentarios acertados de MENESTRO en este tema (en este y otros articulos)…

    • menestro - 21 diciembre 2023 - 12:46

      Gracias, pero no me hagáis ni caso si no sabéis de qué estoy hablando. Son solo puntualizaciones rápidas, no un tractatus.

      Ya voy reñido.

      • Lua - 21 diciembre 2023 - 13:54

        Tranquilo que aunque me quite el sombrero, no nos vamos a comer las pollas… XDDD

  • #006
    Gorki - 21 diciembre 2023 - 12:47

    Si el mundo está lleno de basura, basta con sxplorar Internet para poder observarlo, que queremos que sea el campo de entrenamiento de las
    MML ¿Un campo real,o el Mundo Feliz de Aldous Hutley?

  • #007
    Dedo-en-la-llaga - 21 diciembre 2023 - 12:56

    «Si en una base de datos de imágenes etiquetadas se cuela nada menos que pornografía infantil, (…) ¿qué no puede estar colándose en forma de texto en otras?» Lo mismo, en mayor o menor cantidad…

    Además, me resulta muy «curioso» que se ponga el dedo en esta llaga, y no se diga nada de otro tipo de «pornografía»: contra las mujeres y contra otros personas… He visto cosas en Reddit (yo, que tengo el estómago de acero al cromo-molibdeno), que cuesta creer que se pudieran difundir así como así y que no puedo, bajo ningún concepto, describir aquí. Y no estoy registrado en Reddit.

    Así que en fin: nada nuevo bajo el sol. Y cada vez va a ir a peor con total seguridad. Y será luego la escusa perfecta para ir censurando espacios, por supuesto… Como lo es el terrorismo para cercenar otras libertades. Por cierto, las imágenes de Reddit tenían que ver con eso, con terrorismo.

  • #008
    Xaquín - 21 diciembre 2023 - 13:44

    «Pobre» Enrique, menos mal que nos queda Portugal… y la Alaska madrileñamexicana ya hizo PUM en forma categórica…

    Las prisas, como los pegamoides son malas consejeras. A uno que inventó Facebook para cotillear «con estilo USA» en la Uni, se le fue de las manos, precisamente por las prisas. Si hubiera tenido algo de calma, y no fuera tan seducido por el dinero fácil y el poder, ahora la red social Facebook (puede que Meta.. que ya es irónico el nombrecito!) sería otra cosa muy muy diferente.

    Y lo mismo podemos decir de la silicona Google… o el megasiliconado algoritmo.

    De hecho los primeros siliconados fueron los homo sapiens, que se empezaron a considerar «la hostia» frente a sus antecesores… y la fueron jodiendo con mucho tesón (y poca paciencia).

    Curiosamente Steve Jobs y el siliconado Elon, parecen ser mejores gestores de su impaciencia por descubrir nuevos pasadizos al futuro.

  • #009
    Gorki - 21 diciembre 2023 - 15:30

    Nadie ha contestado. ¿Cómo queremos que entrenen nuestras AI’s, en un entorno REAL, o en el mundo Politicamente Correcto?

    • c3po - 21 diciembre 2023 - 15:42

      En los 2

    • Benji - 21 diciembre 2023 - 15:45

      Eso digo yo. Y luego si lo entrenas así, las respuestas serán del mundo de yupi.

      Más bien me pregunto si no pueden hacer la búsqueda al revés (¿de dónde sacamos estas imágenes?) y detenemos a los pedófilos que subieron eso a la red?

      @Gorki: Me has hecho recordar a ese chatbot de Microsoft que apareció por Twitter para aprender a comunicarse con milenials y en solo 24 horas ya escupía propaganda nazi, hahahahaha. Buenos tiempos aquellos

  • #012
    c3po - 21 diciembre 2023 - 15:38

    Las LLM en esencia son «loros estocásticos». Que haya pornografía en las imágenes o código basura en una petición de prompt, denota que

    (a) La IA está respondiendo con su resultado más probable, si pones en un prompt «lolita desnuda», nos echamos las manos a la cabeza, porque encuentra ese tipo de contenido… pues lo siento es lo que tiene que hacer PEEEEROOO !
    (b) Si una empresa que entiende del tema, deciden no filtrar la salida de los contenidos, es esa empresa la responsable de dejarlos en abierto. Y la excusa típica del informático ( la de esto es muy complicado) no sirve como excusa, del mismo que no vale un autopilot atropella peatones, o un twitter lleno de bulos antes y ahora pronazi, etc etc

    Pero lo principal, algunos siguen en babia, las LLM no entienden, no comprenden, no saben del tema que hablan, son algoritmos que gesticulan y parlotean muy bien, como los loros, nos hará gracia, que le digamos hazme un programa que calcule Fibonnacci, pero en realidad, estan yendo a una bd inmensa y te sueltan su mejor resultado, y para una amplia gama de funcionalidades igual eso es suficiente, pero ya, no son una puñetera AGI, ni Cristo que la fundó. Para pensar como un humano (no descerebrado) les falta mucho. Aún así se puede charlar con ellas mucho mejor con un percentil de la población, cada vez mayor muy a nuestra desgracia.. y contra eso poner el filtro paso alto a un paisano es muy complicado, ese es peor que el de las LLM.

    • Lua - 21 diciembre 2023 - 16:35

      Por muy estocástico que sea el loro, o tienes una legión de humanos (y por «legión» se entiende cientos de miles o incluso algún/os millón) supervisando los datos recopilados para alimentar la dB, o eliges bien, de que fuentes concretas vas a obtener esos datos…

      Cualquier otra forma, redunda en tragarte la basura y aceptar que forme parte del entrenamiento… y del resultado.

      • c3po - 21 diciembre 2023 - 22:18

        No es absolutamente necesario, puedes tener un sistema paralelo especializado en realizar la supervisión de contenidos, mediante aprendizaje reforzado automático. Cuando una máquina lee un mensaje de twitter puede hacer un análisis de que tipo de contenido es, a que entidades afecta, y si lo deja pasar, lo modera o lo que en el policy flow le hayan dicho que tiene que hacer.

        El problema es la cantidad de datos, y desde mi opinión los LLM como chatGPT no están para lo que les estamos usando, han demostrado ser buenos construyendo frases, pues usémoslos para eso, pero no para crear contenido libre

    • Chipiron - 21 diciembre 2023 - 17:40

      Cierto, son loros estocásticos que sueltan lo que sueltan sin entenderlo.

      Aunque se crea que con ellos estamos más cerca de la AGI, yo creo que no. De hecho toda la algoritmia generativa es un campo paralelo (pero no similar) al de la AGI. Hasta cierto punto, una distracción del objetivo real de conseguir una buena AGI.

      En definitiva, completamente de acuerdo.

      • c3po - 21 diciembre 2023 - 22:28

        Pues si estamos de acuerdo. Lo de la AGI para mi es un objetivo a más largo plazo, usando redes generativas, podemos hacer algo que hasta hace nada de tiempo nos parecía imposible (crear imágenes, redactar), digo lo de la respuesta a Lua. Se les está usando para fines que no son 100% eficaces, pero si los pones un pipeline adecuado, pueden ser muy eficaces.

        Por ejemplo creando imágenes hace 1 año, se hacía en 20, 30 pasos, ahora con los nuevos algoritmos se busca hacerlo en fracciones, he comprobado esos modelos y en 5 pasos obtienes un resultado similar a 30,… con un PC potente (no el mio) la creatividad de imagenes sería casi instantanea, eso puede ser una revolución para generar video sintético en tiempo real, Ahora aplícalo al revés, analizar imagenes e interactuar con ellas «comprendiéndolas» en tiempo real, y alimentando a otras redes que saben que hacer y tienen su objetivo sin alucinar… ¿estas en la AGI? pues no, pero tienes que pasar por hacer esas cosas antes de nada, luego ya se verá…

  • #017
    Dedo-en-la-llaga - 21 diciembre 2023 - 20:04

    Ya sé que no exactamente lo mismo, pero esto es más de lo «mismo» y es imparable. Además el dinero circulante es de una cantidad sideral tan grande, (a la medida de una deuda que se lo va a tragar todo, o sea, todo el universo conocido), que en algún sitio hay que meterlo… (Esto de «meterlo» nunca mejor dicho)

    Y como la insatisfacción es tan brutalmente grande en un mundo lleno de promesas de satisfacción que luego pasan las cosas que pasan…

    https://www.eldiario.es/tecnologia/avalancha-porno-generado-ia-fuerza-amazon-dar-marcha-desnudos-twitch_1_10781954.html

    Jou, jou, jou.

  • #018
    Michel Henric-Coll - 26 diciembre 2023 - 15:09

    Encuentro una contradicción fundamental entre el concepto de Machine Learning y la selección por humanos de lo que alimenta estos sistemas.

    Entiendo Machine Learning como el aprendizaje por máquinas de la más amplia información a la que pueda técnicamente acceder.

    Si los humanos criban y seleccionan estas informaciones, no deberíamos hablar de Machine LEARNING sino – como mucho – de Machine TEACHING, que es lo que viene haciendo la informática tradicional.

    «Aprenda lo que yo quiero, y no todo lo que puedas».

    Obviamente el Machine Learning totalmente abierto me parece una barbaridad éticamente inaceptable. Pero, tal vez, tengamos que dejar de ilusionarnos con la entelequia de una I.A. totalmente desligada del juicio y del control humanos.

Dejar un Comentario

Los comentarios están cerrados