La mejor lectura del fin de semana puede ser este artículo en The New York Times, «How tech giants cut corners to harvest data for AI«, y si quieres completarlo, este otro del mismo medio de hace alrededor de un mes, «Four takeaways on the race to amass data for AI«, del que he tomado el diagrama que acompaña.
Con las big tech rivalizando en una especie de «fiebre del oro» o «carrera por el lejano Oeste» para obtener todos los datos que puedan a una velocidad increíble, lo interesante puede ser, cada vez más, pensar hasta qué punto eso supone una privatización de los datos, si realmente tiene sentido que la competencia nos lleve a tener modelos que compiten entre sí por el acceso a la información de entrenamiento, y si no parece lógico plantearse que todo el esfuerzo de esas big tech no acabe confluyendo en modelos que compiten para producir resultados cada vez más sofisticados, pero entrenándose sobre bases de datos libremente disponibles en modo de código abierto.
El diagrama que acompaña me parece espectacular a la hora de entender las dimensiones a las que hacemos referencia: toda la Wikipedia, con todos sus millones de artículos, supone simplemente el minúsculo rectángulo de la edquina superior derecha. El grueso del conjunto es la base de datos compilada por Common Crawl, una organización sin ánimo de lucro que lleva desde 2008 archivando contenido de la web con actualizaciones mensuales. Contiene en torno a un 46% de información en inglés, seguida de ruso (6.03%), alemán (5.4%), japonés (5.15%), chino (5.07%), español (4.53%), francés (4.39%) y muchos otros ya todos por debajo del 3%. De hecho, la idea o crítica fácil de que el desarrollo de modelos en lenguajes autóctonos supone algún tipo de «chauvinismo» o de «provincianismo» de los políticos de turno es infundada e incorrecta: es muy importante desarrollar esos modelos, porque la relación de coste de los tokens se establece fundamentalmente a partir de la información de entrenamiento, y trabajar desde otros idiomas sobre modelos entrenados fundamentalmente en inglés es algo que no tiene ningún sentido económico y únicamente consolida desventajas de cara al futuro.
A partir de aquí, cabe plantearse cuál es el futuro. Más allá de los «trucos y subterfugios» que describen los artículos, como capturar los textos de las locuciones de los vídeos de YouTube, adquirir editoriales para contar con sus nuevas publicaciones, etc., hay que pensar en qué momento las necesidades de entrenamiento de los algoritmos empiezan a convertirse en una asíntota, o si realmente es preciso semejante volumen de datos para ello. Después de todo, un cerebro humano no necesita ni mucho menos tal cantidad de datos para desarrollar un aprendizaje que, por tanto, se convierte en infinitamente más eficiente. ¿Estamos en una etapa previa en la que nos vemos forzados a invertir auténticas barbaridades para obtener volúmenes masivos de datos para terminar entrenando algoritmos ineficientes?
Mientras las big tech se plantean la frontera de los datos sintéticos, de pedir a algoritmos que generen datos para que se entrenen otros algoritmos, creo que es buen momento para pensar hasta qué punto conviene que esos algoritmos sigan compitiendo entre sí en esa dimensión. Obviamente, la competencia es buena, y eso lo saben hasta los no capitalistas. Pero esa competencia puede establecerse sobre muchas variables, no necesariamente jugando a obtener acuerdos en exclusiva que garanticen un suministro de datos determinado mientras con ello se logra privar a un competidor del acceso a ellos. ¿Hay alguna ventaja para la sociedad en esa apropiación y privatización de los datos?
¿De verdad deben ser los datos como el petróleo del siglo XXI, como la «fiebre del oro» o como la carrera por obtener terrenos en el Lejano Oeste? Recordemos que el petróleo se quema (con asquerosos efectos, por cierto), mientras que los datos no. El oro que encuentras tú ya no lo encuentra otro, y los terrenos que delimitas y reclamas para ti, ya no los reclama otro. Pero… ¿y los datos? ¿Hay alguna ventaja o algún interés en que nos planteemos tratar su suministro de la misma manera?
This article is also available in English on my Medium page, «The great AI gold rush is on, but is this what we really want?»
Pues teniendo en cuenta que todo lo que tenga más de x años, ahora es totalmente incorrecto junto con la probable cantidad de datos adaptados a los intereses de los que publican……. Vamos apañados
Sin quitar el valor que pueda suponer los datos de cualquier hemeroteca, creo que las empresa de AI tienen a su disposición, sin problemas de Derechos de Autor, millones de datos donde poder entrenar sus LLM.
Empezando por la Wikipedia, los catálogos de productos de todo tipo de compañías del tipo Leroy Merlin, los miles de web cam repartidas por todo el mundo. Todos los libros en bibliotecas digitale exentos de derechos de autor. Documentos oficiales tipo BOE, colecciones de museos,….
Si con todo esto no pueden enseñar a una MLL específica, pues tendría sentido que puntualmente solicitaran los datos en concreto de una centro especializado en el asunto que los interese, por poner un ejemplo, sobre física cuántica, o derecho de inquilinato, pero no entiendo tanto que busquen un hemeroteca de un periódico.
Gorki, porfa… mírate el diagrama, fíjate en lo que representa la Wikipedia, y piensa. Estás equivocando las dimensiones completamente.
Los datos, como decía el poeta, eres tú. Pero, en modo hamletiano, también se puede decir que ser o no ser un dato, me importa un pimiento… ya que lo importante será su uso (matar o no matar al rey, por ejemplo)… o estar soñando o estar despierto (sin saber muy bien lo que significa cada concepto), tal como contaba nuestro gran aúreo teatrero hispánico.
En fin, al grano.
Estos días ando navegando por la wiki y me doy cuenta que casi todas las entradas tienen un exceso de datos ineficientes (en principio), una datosis considerable, que, lógicamente, provoca una navegación por el mar de los sargazos, que no es precisamente navegar (cómodamente).
Y si la wiki funciona así, ya no quiero ni pensar en el maremagnum homérico que supone esa mole llamada Common Crawl… un auténtico cíclope totalmente ineficaz ante un inteligente Odiseo.
Como ya he mencionado en otras ocasiones, esos datos solo son paja semántica y gramatical que no afecta en nada a la calidad del algoritmo, Tanto les daría leer el boletín oficial del estado, que eso no mejoraría un ápice su entendimiento o supuesta capacidad de raciocinio.
No hay una diferencia cualitativa, ya que no manejan conocimiento real, si no relaciones semánticas y gramaticales vacías de significado.
Vamos, que la calidad de la información que consumimos solo nos importa a los seres humanos, y somos los que notamos la diferencia. O deberíamos. De hecho, lo notamos, al menos yo, a muy largo plazo.
–
Extra Bonus
Es diferente lo que pasa con los seres humanos. Necesitamos personas de calidad en nuestro entorno para crecer.
Nadie quiere rodearse de los auténticos fantasmas de la sala de baile del Hotel Overlook, como figurantes de una vida ajena. Nadie sabe quienes son, ni que hacen allí, solo están en la foto, con Jack Torrance.
Son datos anónimos.
¿Quienes son? ¿Quién les quiere?¿Viven allí, o le dan de comer al gato en su casa después de hacerse la foto?¿Dónde vive una polilla y cuál es su escenario cuando se apaga la luz?
Kubrick sabía que hay pocas cosas más deshumanizadoras que ser figurantes de una historia ajena, por eso lo reservó para la despedida del hotel.
Vivimos en la época de las polillas. Se enciende el foco. Un segundo de luz. Clap. Les han visto. Lo han logrado.
Durante un instante le han arrebatado su luz a una llama y tras ello, vuelven a transformase en ceniza.,
Desde luego, como el instructor digital de los LLM tome este «Extra Bonus» no creo que avance mucho en la mejora de sus relaciones semánticas y gramaticales vacías de significado
User
¿cuantos datos has necesitado tu ChatGPT 3.5 para instruirte?
ChatGPT
ChatGPT 3.5 se ha entrenado con una cantidad masiva de datos, en el orden de cientos de miles de millones de palabras. Este entrenamiento ha sido realizado utilizando una combinación de libros, artículos de noticias, páginas web y otros textos disponibles públicamente en internet.
Con los datos ocurre lo mismo que con los derechos de autor. Hay una «aristocracia» de propietarios de datos por decenas de años, mientras que las patentes industriales duran sólo 20 años, 25 para las farmacéuticas.
¿Os habéis dado cuenta que no hay muy pocas hemerotecas de acceso público abierto? ¿No deberían de estar abiertas esas hemerotecas de libre acceso a partir de los 20 años?
En mi opinión cualquier dato anonimizado, u originalmente público de más de 20 años, debería de ser de libre acceso por ley. La industria debería de acordar solamente el estándar de requerimiento, acceso y publicación de ese dato de más de 20 años. La excepción debería de ser la no publicación.
Después de que los poseedores han visto que tienen algo muy valioso entre manos no me extrañaría que empezasen a aparecer lobbies pidiendo que la propiedad de los datos se extienda 10,20,30 años o más.
Perdon por el off topic, pero en el texto de Microsiervos se te cita, Enrique, y la página donde muestra lo de la «mierdificación», tiene su gracia:
https://how-i-experience-web-today.com/
Gracias, Pedro, suelo leer a Alvy y a Wicho, pero no lo había visto!
Yo lo que veo es otra cosa, además. Que se han acabado los datos en forma de palabra escrita. Básicamente no hay más, en orden de magnitud. Podrían incrementar en un orden (lo que da para otra generación adicional de LLM) metiendo en el entrenamiento el material recopilable de las 100 lenguas con más hablantes, por ejemplo.Pero eso solo daría un LLM multilenguage de un nivel quizás un poco más alto que el State of the Art actual, no más.
Y si como parece, en buena parte, la «calidad» de los LLM está muy relacionada con el tamaño de su «función neural», es decir, con cuantos parametros cuenta su modelo, eso significa que estamos llegando al techo de lo posible con este parafigma de IA. Aumentar el número de parametros sin más datos es meterse facilmente en el problema del overfitting; de ahí que se estén planteando lo de generar «datos sintéticos».
Quizás la única vía para generar mejores LLM sin meterse en el laberinto de los datos sintéticos sea meter niveles adicionales (muchísmos, pasar de las decenes de los actuales a cientos o incluso miles) de transformers, pero añade otro problema: incrementa el tiempo de proceso para generar las respuestas. Y potencialmente mucho.
«Después de todo, un cerebro humano no necesita ni mucho menos tal cantidad de datos para desarrollar un aprendizaje»
A ver…que un ser humano tarda una locura de tiempo en empezar a hablar.
Sin embargo el humano tiene todo tipo de interacciones a priori no-lingüísticas: una manzana como concepto se construye a base de su olor, sus colores, el hecho de que se come y tu madre te dice que es sana, es dulce, etc, ADEMÁS de «manzana es lo que va antes del verbo comer en una frase y que suele ir cerca de esta lista de complementos directos, etc», (lo último siendo cómo se entrena a chatgpt).
Precisamente los investigadores ya están en el proceso de intentar darle a una AI todo ese tipo de inputs a ver si el concepto «concepto» surge solo (igual que surgió «solo» lo de hablar con sentido a partir de cierto tamaño/profundida de red), incluyendo embeber la AI en un mundo «físico» (aunque sea virtual) para que «toquetee y juegue».
«¿Estamos en una etapa previa en la que nos vemos forzados a invertir auténticas barbaridades para obtener volúmenes masivos de datos para terminar entrenando algoritmos ineficientes?»
sí