¿Qué datos de tu empresa compartes y cuáles prefieres guardar y manejar tú solito?

IMAGE: Mohamed Hassan - Pixabay

Es, sin duda, uno de los temas que más me intriga sobre el proceso de adopción del machine learning y la inteligencia artificial en general: dado que un algoritmo tiene las capacidades que sea capaz de adquirir a través de su entrenamiento, y ese entrenamiento se lleva a cabo con datos, ¿qué parte de ese entrenamiento vamos a obtener ya pre-ejecutado cuando pagamos por la capacidad de utilizar un algoritmo comercializado por un tercero, y qué parte querremos educar nosotros mismos y, además, asegurarnos de que esos datos con los que lo educamos se mantienen bajo nuestro total control?

Es un tema con el que me he encontrado en múltiples ocasiones: cuando pido a mis alumnos en determinados cursos que planteen un algoritmo sencillo con sus datos, la gran mayoría no opta por utilizar datos de su compañía o de repositorios reales, sino que prefiere recurrir a Kaggle o a repositorios similares para utilizar datos ajenos, ya convenientemente anonimizados,y con los que no corre ningún riesgo.

Ahora, la situación vuelve a ponerse de manifiesto, pero en un contexto más amplio: a partir del momento, hace pocas semanas, que OpenAI comenzó a ofrecer a las empresas la posibilidad de entrenar sus propios asistentes a partir de la base de ChatGPT, y que fue capaz, además, de poner en marcha un proceso sencillo al alcance de prácticamente cualquiera para poner la idea en práctica, hemos podido ver cómo el mercado empezaba a hacer sus experimentos y se dedicaba a entrenar a ChatGPT con todo tipo de datos procedentes de múltiples industrias… hasta que nos hemos encontrado con que esos chatbots están dejando a la vista de prácticamente cualquiera suficientemente interesado muchos de los datos con los que fueron entrenados.

En efecto, todo indica que mediante una simple prompt injection al alcance de cualquiera, esos chatbots revelan fácilmente datos que no estaban pensados para ser revelados, con todos los problemas que pueden llegar a surgir de ello. Y lógicamente, la preocupación no se reduce a lo que puede ocurrir si los datos son revelados al primero que pase e intente acceder a ellos (que ya de por sí supone un riesgo muy importante y potenciales reclamaciones legales por violaciones a la privacidad), sino que va un poco más allá: ¿y la propia OpenAI, o la compañía que gestione el algoritmo generativo original? ¿Consigue OpenAI acceso a los datos adicionales, no públicos, con los que sus clientes entrenan a sus algoritmos?

Conociendo cómo ha funcionado la industria desde casi sus orígenes, la respuesta es obviamente afirmativa, y nos indica que estamos en uno de esos momentos en los que se decide la forma que va a tener una industria en el futuro: unos pocos proveedores convertidos en imperios enormes que controlan todo y que comercializan sus algoritmos para que sus clientes, simplemente, les den los últimos toques de personalización y adaptación a su industria añadiendo sus datos al proceso de entrenamiento; o una amplia diversidad de algoritmos de todo tipo de orígenes, correspondientes a una caída en las barreras de entrada a su desarrollo y al hecho de que cualquiera es capaz de concebir y educar su propio algoritmo a su antojo.

El primer escenario, obviamente, paraleliza lo ocurrido con la web cuando, a partir de lo que se dio en llamar Web 2.0, surgieron compañías que prometían una «democratización» de la creación de contenidos gracias a herramientas sencillas en las que, para acceder, únicamente necesitábamos una cuenta abierta con ellos. Esas compañías, gracias al acceso que obtuvieron a nuestra información, se convirtieron en algunas de las más grandes y valiosas del mundo, y han dado lugar al panorama de concentración y cuasi-monopolios que hoy conocemos.

¿Realmente nos sentiríamos cómodos alimentando a un ChatGPT con los datos de nuestra compañía, para posteriormente saber que no solo pueden ser revelados a terceros, sino que, además, la propia OpenAI – o el proveedor que sea – puede acceder a ellos y reutilizarlos a su antojo? ¿Cuánto hay a ganar para una compañía tecnológica en el hecho de controlar todos los datos utilizados para alimentar y entrenar todos los algoritmos, a lo largo de muchas industrias? ¿No representa eso un potencial de alcanzar un poder casi omnímodo? ¿Vamos a repetir el error que supuso no proteger nuestros datos personales y compartirlos alegremente, pero ahora un paso más allá, con los datos corporativos?

Sinceramente, me parece peligroso. Y sobre todo, creo que el desarrollar algoritmos, por mucho que miremos hacia OpenAI y compañías similares y percibamos una complejidad enorme e inabarcable, no es tan complejo, y es más, puede hacerse razonablemente bien con herramientas low code o no code. Parece difícil imaginar a una compañía distinta de los OpenAI, Anthropic o una big tech cualquiera creando un algoritmo conversacional como ChatGPT, Claude, Bard y similares: simplemente, el lenguaje humano es muy complejo, necesitamos muchísimos parámetros para abarcar esa complejidad, y no parece razonable lanzarnos a semejante tarea si no vamos a rentabilizarla entre una base muy amplia de usuarios. Pero entre un futuro en el que todos dependemos de unos pocos algoritmos creados por un puñado de compañías y otro en el que cada uno desarrolla los suyos y los va mejorando a medida que aporta más datos, francamente, prefiero el segundo.


This article is also available in English on my Medium page, «When will you use a third-party algorithm and when will you develop your own

10 comentarios

  • #001
    Lua - 30 noviembre 2023 - 20:03

    No creo que la cuestion pase por «que preferimos»… sino por que debemos o no, compartir.

    De nuevo, el sentido de la logica y el sentido comun en entredicho.

    Como ya hemos demostrado C3PO y yo mismo, podemos tener nuestros propios modelos en nuestros hardwares. Evidentemente dentro de nuestras posibilidades. Pero empresas con mas recursos, pueden ir mas alla. Y no necesariamente conectadas a internet.

    Es por ello que modelos de suscripcion, por ejemplo, en tanto a actualizar el numero de parametros, una simple descarga a modo de actualizacion de los mismos, seria lo ideal. Como lo seria, los modelos de entrenamiento con los datos precisos de la empresa en cuestion.

    Dicho de otra forma, hay que pasar si o si, por un proyecto «open», comun a toda la humanidad, y que cada cual, pueda actualizar en base a sus necesidades, eso si, siempre acotadas.

    Se puede… y se debe hacer?

    Dejo ambas preguntas para el resto de comentaristas (y eDans)

    • c3po - 30 noviembre 2023 - 22:13

      Pues los de google, enseguida cortaron el grifo del colab…

      META, Stable Diffusion, algo OpenAI han hecho algo… por compartir,…. pero en cuanto se han metido los GPTs que les hace consumir recursos a manta… salió el judio Samuel, a sacar sus moneditas, y su todo por la pasta…

      En GPTs, Lo más parecido a Open es lo de META… y no el postureo de OpenAI que de open tenía el nombre, y ahora es la meretriz de MS ( si meretriz)

      • Lua - 1 diciembre 2023 - 09:40

        Que se acabaría pasando por caja, era inevitable. Como ya hemos comentado, mantener toda la infraestructura cuesta un ojo mas el diez por ciento. No es de extrañar, que incluso la AI, tenga su propio cementerio

  • #004
    Gorki - 30 noviembre 2023 - 20:05

    He sido jefe de informática de Corning Iberica. En esta sucursal de una multinacional no había muchos secretos que guardar, pero sin embrago éramos discretos, jamás habríamos compartido de buena gana datos de la empresa con nadie, ni referente a las ventas, ni a las nóminas, ni de clientes,….

    Sin embargo, por fuerza hemos compartido datos con otras compañías, una sociedad nos llevaba la logística, y hemos tenido que darle datos de pedidos y clientes. para que llevaran las ventas a los clientes, también hemos dado información de nuestras compras a la central a los agentes de Aduanas y por supuesto los bancos con los que trabajábamos tenían puntual información de nuestros gastos e ingresos, tambien asi como habia que entregar las cuentas a Hacienda y habia suministradores como las compañías de teléfono, electricidad, material de oficina,… que podían obtener una cierta imagen de nuestra actividad en relación al consumo de diferentes materiales y servicios.

    Es imposible mantener en secreto los datos de una compañía, pero si hubiéramos sospechado que cualquiera de estos colaboradores. (exceptuando Hacienda), informaba de nuestros datos a terceros, habríamos dejado de colaborar con él, inmediatamente. Ya digo, no éramos secretos, pero si discretos., .

  • #005
    Juan T. - 30 noviembre 2023 - 20:48

    Pues yo estoy esperando que Enrique opine sobre la posibilidad de crear enjambres de agentes autónomos, que sería lo verdaderamente revolucionario, al menos segun los comentarios de gente aparentemente metida en el ajo.

    Para muestra:

    https://www.youtube.com/watch?v=M5Pa0pLgyYU

  • #006
    Javier Lux - 30 noviembre 2023 - 21:35

    Cada día me convenzo más sobre la implacable concentración de empresas que la IA puede suponer. El ejemplo más claro creo que es el sector Banca-Seguros. Ambos evalúan riesgos y ponen precio (interés o prima) a esos riesgos que asumen. Esa decisión está basada en datos de entrada (análisis de ingresos/gastos recurrentes para créditos, ubicación o edad para cálculo de primas de riesgos)

    Sabemos que a largo plazo los algoritmos vencerán a los equipos humanos que hoy deciden sobre los riesgos en la banca/seguros, tal y como Deep Blue acabó venciendo a Kasparov. Despues de unos lustros, los algoritmos habrán hecho desaparecer a los humanos en un alto porcentaje de las decisiones de crédito/riesgo, por lo que el torneo será a partir de entonces algoritmo vs algoritmo.

    Pues entonces parece claro que el algoritmo vencedor y finalistas serán muy pocos, y habrán consumido mucho tiempo y dinero para mejorar. Eso solo estará al alcance de unos pocos bancos USA, Europa, China, resto de Asia y resto del Mundo.

    • JM - 1 diciembre 2023 - 06:12

      A mí lo que me preocupa es que ahora mismo las empresas que se dedican a la IA con LLM están en la fase de ofrecer a los usuarios servicios relativamente baratos para aumentar su cuota de mercado.

      Cuando sólo queden un puñado de empresas pasarán a la fase de exprimir a los usuarios para sacarles todo el beneficio posible a la par que cada vez darán peor servicio.

      ¿Qué ocurrirá con todos aquellos usuarios, empresas o estados que dependan de ellos?

      Debería haber una alternativa abierta y/o estatal para disminuir esa dependencia.

      • Javier Lux - 1 diciembre 2023 - 08:41

        Para eso está la regulación y las leyes anti-monopolio.

        No todos los reguladores de la competencia han sido creados iguales. Tampoco las sociedades, los jueces, los policías, los periodistas o las universidades. Tener instituciones neutrales preocupadas por el bien común es escaso y difícil, aunque existen. Tener altos funcionarios vendidos y corruptos, crematísticamente o ideológicamente, es una ruina.

        ¿Sabrán los votantes de una sociedad guiar a sus dirigentes por el buen camino?

      • Javier Lux - 1 diciembre 2023 - 08:42

        Pero tienes mucha razón en tu preocupación. Yo comparto esa preocupación

  • #010
    c3po - 30 noviembre 2023 - 22:07

    from agency_swarm import set_openai_key
    from getpass import getpass
    set_openai_key(getpass(«Please enter your openai key: «))

    A pasar por caja chiquitín…

Dejar un Comentario

Los comentarios están cerrados