Cuando los algoritmos generativos empiezan a hablar…

IMAGE: Mohamed Hassan - Pixabay

OpenAI actualiza la versión de pago de ChatGPT en smartphones con un generador de voz capaz de recibir cuestiones en formato de voz y de contestar también con cinco opciones de voz diferentes, en lo que supone un cambio generacional frente a anteriores asistentes de voz como Alexa, Siri o Google Assistant. Además, incorpora también la capacidad de aceptar imágenes como comandos de activación.

Indudablemente, hablamos de mejoras sustantivas e interesantes en un entorno, el de la algoritmia generativa, que está en plena evolución y sometido a una fuerte competitividad. Que un asistente generativo pueda recibir preguntas de viva voz y responder también verbalmente, o recibir imágenes como entradas es una muy buena cosa en términos de accesibilidad, y abre la puerta a muchísimas posibilidades de interacción con este tipo de asistentes cada vez más potentes.

Sin embargo, es importante también entender las grandes diferencias entre las interfaces visuales de texto y las de voz: mientras en las de texto, por lo general, se lleva a cabo un procesamiento de la información recibida algo más reflexivo – derivado de la necesidad de, como mínimo, leer e interpretar el texto, cuando no, como en algunos asistentes concretos, de revisar las fuentes utilizadas para confeccionar la respuesta, – en el caso de las respuestas recibidas en formato de voz, ese procesamiento mental por parte de quien recibe la respuesta se hace de manera prácticamente inmediata, y sometido a un cuestionamiento mucho menor. La voz es instantánea, y no proporciona más contexto adicional que la respuesta obtenida.

Eso me lleva a recuperar el artículo que escribí hace algún tiempo sobre el impacto de la algoritmia generativa sobre el pensamiento crítico, «Cuando el algoritmo piensa por ti«: de lo que hablamos ahora ya no es de la posibilidad de que algunas personas con reducida preparación para lidiar con este tipo de herramientas procedan a «subcontratar» su pensamiento y juicio crítico a un asistente algorítmico, sino de poner en el bolsillo de todo aquel que quiera pagarlo una herramienta que responde de viva voz de manera inmediata a cualquier pregunta, algo potencialmente mucho más peligroso.

Obviamente, un profesor de innovación que se precie no se dedica simplemente a demonizar ese tipo de herramienta, e interpretar que estoy haciendo eso sería conocerme muy poco. De lo que hablamos es de que, sabiendo como sabemos que el entrenamiento de este tipo de asistentes es potencialmente limitado, posiblemente sometido a sesgos y, además, propenso al establecimiento de correlaciones espurias o de escasa significación estadística, a las que tendemos a llamar «alucinaciones», se me antoja muy necesario introducir en el curriculum educativo la educación en el uso de este tipo de herramientas, si no queremos tener todo tipo de problemas.

Hablamos, después de todo, de personas que se caen a un lago por seguir ciegamente los comandos de su GPS, de usuarios que asumen como verdad absoluta el primer resultado de un buscador, o de otros que confían de manera absoluta en el consejo legal de un algoritmo. ¿Qué no ocurrirá cuando el resultado de cualquier búsqueda o pregunta sea una frase rápida en un smartphone producida por un algoritmo generativo al que muchos atribuyen, supuestamente, una inteligencia superior a la de las personas? ¿Cómo plantearnos un uso responsable cuando, incluso si quieres realmente verificar la información que has recibido, la interfaz te ofrece escasas posibilidades de hacerlo? ¿Qué pasa, por ejemplo, cuando, a escasos minutos de una reunión con alguien, preguntas a tu asistente sobre esa persona y te dice que está implicado en casos de acoso sexual… cuando no es cierto en absoluto?

No, no hablamos de que la IA sea «demasiado buena», sino de herramientas que aún están en fase de entrenamiento, que solo ofrecen sus respuestas bajo advertencias y disclaimers de todo tipo escritas en letra pequeña al final de la página, y que están muy lejos de ofrecer la fiabilidad que sí ofrecían los algoritmos de automatización avanzada propuestos por la generación anterior del machine learning, cuando los desarrolladores aún podían tratar de entender lo que estaban haciendo, lo que ocurría cuando introducías más variables o el procedimiento matemático que daba lugar a una respuesta determinada.

O nos preparamos para lo que viene, o muchos serán directamente sus víctimas.


This article is also available in English on my Medium page, «ChatGPT: never underestimate the power of the spoken word»

15 comentarios

  • #001
    Xaquín - 28 septiembre 2023 - 12:17

    «o nos preparamos para lo que viene» es el mantra de toda mamá loba cuando le habla a su lobezno… al que no deja salir de la cueva hasta que esté preparado para la segunda fase de preparación… y en la tercera fase (la de hacerlo libre) no reza, simplemente se adapta a la nueva situación (de «nido semivacío»), esperando que su cría también siga los consejos de su propio ADN y logre adaptarse a todo tipo de cambio, que se produzca en el ecosistema.

    También podemos llamarla preparación de los filtros mentales instintivos, aunque en su caso sean más bien instintivos.

    Y por eso es muy raro, que un lobezno se caiga en un lago. Ni GPS necesita. Pero ya sabemos lo que no se quiere saber : que somos bastante mediocres, incluso (algunos) como simple variedad homo.

  • #002
    c3po - 28 septiembre 2023 - 16:10

    Acabo de ver la «demo» de la «demo» de DOTCSV…

    No sé como se puede decir que algo hace algo, si no puedes comprobarlo tu mismo, en un video de marketing todo es maravilloso. Lo del modo multimodal ya lo dijeron hace, Bing, y el de google ya hacen cosas parecidas.

    Se va a inundar el mercado de IAs, y estamos una vez más ante la paradoja de la tarta. El mercado va a dar una cierta cantidad de dinero a los que apuesten por ese mercado, pero ¿habrá pedazos de tarta para todos? Nos tenemos que acordar de la liberación de las compañías telefónicas? Surgieron como setas, y muchas duraron lo que un caramelo en la puerta de un colegio… en esto pasará lo mismo.

    Y el que mejor propaganda haga y baile la danza de vientre mejor, más revenue capturará, pero ni agis ni higos, marketing puro del conocidísimo Altmann un encantador de serpientes, y nada más puro decorado y medir los tiempos de los anuncios, eso si.

  • #003
    Iván - 28 septiembre 2023 - 16:42

    Hola Enrique, queria hacerte unas preguntas en relacion a esta parte de tu post:
    » No, no hablamos de que la IA sea «demasiado buena», sino de herramientas que aún están en fase de entrenamiento, que solo ofrecen sus respuestas bajo advertencias y disclaimers de todo tipo escritas en letra pequeña al final de la página, y que están muy lejos de ofrecer la fiabilidad que sí ofrecían los algoritmos de automatización avanzada propuestos por la generación anterior del machine learning, cuando los desarrolladores aún podían tratar de entender lo que estaban haciendo, lo que ocurría cuando introducías más variables o el procedimiento matemático que daba lugar a una respuesta determinada»

    Enteindo que te refieres al fine-tuning de los Large Language Models. Me pregunto como funciona, ya que segun entiendo yo le puedo dar una serie de datos y pedir que aprenda a hacer predicciones. Sin embargo yo no se que ha pasado ahi dentro, no se que tipo de modelo ha elegido, ni siquiera si ha normalizado los datos, ni si ha ajustado los hiperparametros, ni que porcentaje de datos ha escogido para entrenar el model y que porcentage a dejado fuera para evitat el over-fitting. Entiendo que el LLM puede hacer de cualquier cosa pero no me queda muy claro como. Gracias

    • C3PO - 28 septiembre 2023 - 20:04

      WIKI, GPT3.

      Un LLM de texto se define como «un modelo estadístico que predice la probabilidad de aparición de una secuencia de palabras en una oración». Puedes encontrar una descripción más detallada de este concepto en [enlace a Wikipedia].

      La arquitectura de estos modelos no es nueva y se ha utilizado en versiones anteriores a GPT-3. Estos modelos son extremadamente grandes, con hasta 175 mil millones de parámetros. La forma en que funcionan implica un proceso de preentrenamiento seguido de un ajuste fino para mejorar su comportamiento final. Por ejemplo, si durante el preentrenamiento muestran comportamientos problemáticos, como expresiones racistas, es más práctico permitirles aprender de una variedad de textos y luego aplicar filtros para garantizar un comportamiento ético. En el caso de GPT-4, aunque la información técnica es limitada, se puede suponer que es similar a su predecesor, GPT-3. La manera exacta en que se realiza este proceso se mantiene en secreto como propiedad industrial. Lo que menciona Enrique más arriba se refiere a cómo los usuarios perciben el filtrado en estos modelos.

      Modelos como LLAMA y los desarrollados por Google pueden mostrar comportamientos anómalos similares, pero todos se someten a algún tipo de filtrado o ajuste para hacerlos adecuados para su uso, ya que se basan en tecnología de transformers y redes neuronales profundas, entre otros.
      ————
      El texto se lo he pasado yo a GPT, y ves lo que ha corregido, GPT3, yo decía que son unos monstruos grandes, tampoco le ha gustado decir que filtraban y/o censuraban la salida, y que la info de GPT4 era de marketing…

      Con ello se ven 2 cosas. Hasta cuando corrigen texto, tienen un sesgo en la forma de redactar, y que cuando son ellos los que generan un texto, ese sesgo es más apreciable…

      De las muchas respuestas que se podían hacer a GPT , por mucha probabiliad que tenga, por ejemplo en la frase «Juan come manzanas» si se omite «manzanas» un humano diría que hay muchas propuestas, algo o alguien le dice a GPT que tiene que comer Juan, y eso se llama sesgo, no probabilidad. Y eso sesgo está influenciado por la forma de pensar de sus creadores. El peligro no es solo el fine tuning

      Usando y utilizando el sentido crítico se ve que las IAs van a ser un «peligro» de colonización cultural, no que vayan a hacerse con el control de la humanidad, es todo control como hacen los medios… ideológico.

      • Lua - 28 septiembre 2023 - 21:46

        No puedo estar mas de acuerdo…

        +1000

      • Ivan - 28 septiembre 2023 - 22:01

        Si, en cuanto a que es un LLM y tener una idea de como funciona, si, eso lo tenia claro. No obstante, gracias. Lo que me sorprende es que lo puedas moldear por asi decirlo mediante el fine tuning para hacer aprender a detectar patrones en los datos que le des. Es decir que entiendo que no tendria que crear un modelo con Azure, por ejemplo, sino que le pasaria los datos a un LLM y le diria que actue como un modelo de prediccion, le daria los detalles que fueran necesarios y me haria las funciones de modelo de prediccion.

        • c3po - 28 septiembre 2023 - 23:08

          El motor da igual, no es Azure lo importante. Transformers es open source de google, que luego han usado los demás. Hasta OpenAI. Obviamente un gigante como MS tendrá la de dios montada en Azure.

          Son redes neuronales profundas que tienen infinidad de «neuronas» y capas, retroalimentación, convolución, y sobre todo transformers(attention is all your need) que «simplificando» hacen lo que hacemos nosotros cuando vemos que es prestar atención a una determinada zona. Pues todo eso, lo aplican a NLP, i.e. procesamiento natural del lenguaje,… y buenos buenos tenemos 3: OpenAI, Google y Llama, los demás son variaciones más o menos hábiles, que usan GPT3 que es open source.

          El fine tuning, no es nada más que una tubería en el cual el uuario hace una pregunta, la pregunta es enchufado a un sistema tokenizador, este se enchufa a la entrada de un procesador que tiene que saber la intención del usuario (que pide) y las entidades relacionadas (sitios, referencias, …) eso se le enchufa, a otro(s) más listo(s) , cuya salida va a ser una respuesta con diferentes probabilidades, para no ser un loro la salida se randomiza, unas veces será A, otras B,… esa salida se mete a filtros de comportamiento de la salida, se completa con «muletillas», censuras, sesgos y tras mucho proceso lo que quieren lo recibe el usuario. El fine tuning lo están haciendo con aprendizaje reforzado humano, y lo que habrán conseguido ya es que sea otro GPT el que vigile y dicte al general… reducir costes, le llaman.

          Lo de detectar patrones es lo más sencillo existen algoritmos que no son deep learning, que lo hacen con aprendizaje no supervisado (kmeans, random forest) e incluso aprendizaje reforzado profundo, los más sencillos por ejemplo es cuando en un videojuego se ponen a jugar consigo mismo, se le dan las reglas del juego y son capaces de jugar millones de partidas y jugar mejor que una persona.

          Un mundo si, pero no es magia, y las trampas te las puede hacer en cualquier momento el dueño del scattergories…

          • Ivan - 29 septiembre 2023 - 17:33

            Hace unos años creé, o tal vez lo correcto seria decir monté, algún modelo de Machine Learning para realizar predicciones sobre ventas. Nada extraordinario, obtener los datos de la variables que me interesaban, etiquetar los datos, normalizar, ajustar los hiperparametros y elegir el algoritmo que mejor me iba dentro de las opciones que tenia. Al hacerlo asi podia explicar lo que estaba pasando. Podia incluso ojearme la documentacion del algoritmo y dar una explicacion un poco mas extensa ( dentro de mis posibilidades) Sin embargo ahora con el fine tuning yo no se que esta pasando ahi dentro. Me parece un poco una especie de caja negra.

  • #009
    r. - 28 septiembre 2023 - 21:17

    Por cierto, por el manifiesto del unabomber descubrieron que fue escrito por un universitario. Cada párrafo contenía cinco frases, luego un punto y aparte y luego de nuevo otras cinco frases. Es la norma para publicar en la Universidad en USA. En cosas así detecto que un texto está escrito por una IA.

    • Enrique Dans - 28 septiembre 2023 - 21:23

      ¿??? He publicado bastante en la universidad en USA, y jamás he tenido que contar frases de ningún tipo para nada. Esa “norma” no existe.

  • #011
    menestro - 28 septiembre 2023 - 23:43

    Sí, es cierto, hay un estilo de redacción académica que se cuida mucho en los textos de las universidades de EEUU, más que aquí, y se le presta mucha importancia a los párrafos otorgandoles un canon de estilo académico de 200 o 300 palabras, 5 frases, y pocas oraciones subordinadas.

    The Writing Center – Paragraphs

    Es algo que no sucede en la universidad española, donde abundan las parrafadas interminables con un estilo abigarrado y denso. Hay profesores como Fernando Savater que imparten docencia exclusivamente para mejorar el estilo de escritura, (mejor no queráis saber de la facultad de periodismo) aunque se orienta más hacia su expresión creativa, que a un canon académico como el de EEUU.

    Forma parte de lo que se conoce como variedades diastráticas del lenguaje.

    Obviamente, no se escribe igual en un blog y con el móvil, que cuando haces un texto para una lectura cualificada o con otro propósito estilístico. La noche y el día.

    No tiene nada que ver, es un traje diferente del lenguaje que, precisamente, no dominan los chatbots.

    San Gennà, pienzace tu!

    • Vanesa - 1 octubre 2023 - 12:06

      A mi chatgpt y las ia me están ayudando mucho en muchos aspectos aunque todavía queda cosas por pulir.

  • #013
    Dino - 28 septiembre 2023 - 23:51

    “No estoy como una chota, Pedro Sánchez tiene barba”

    ChatGPT

  • #014
    David - 1 octubre 2023 - 09:34

    La mayoría de gente tampoco filtra la información que les llega del telediario y a nadie se le ha ocurrido la idea de que se tuviera que exigir carrera universitaria para poder ver las noticias.

  • #015
    Dedo-en-la-llaga - 3 octubre 2023 - 01:30

    Obvio: si la gente está cayendo en el timo del SMS de uno hij@ que se le ha estropeado el telf. , o con cualquier otra excusa, para que le envíe dinero y van y se lo envían… ¡¡¡En cantidades importantes!!!

    Aquí se ha hablado mucho de sistemas de autentificación, ya vais a ver lo que será que cada uno de tus amigos y familiares, y todo el resto tenga que usar sistemas de autentificación simplemente para mantener una conversación telefónica, ya… Veréis qué risa.

Dejar un Comentario

Los comentarios están cerrados