El algoritmo y el paper académico

IMAGE: Ravi Teja - Pixabay

Si de algo no me cabe duda, es que vamos a asistir a una enorme proliferación de asistentes que utilizan machine learning o, más específicamente, Large Language Models (LLM), no solo para escribir un texto sobre un tema determinado o dibujar lo que le pidas, sino para todo tipo de tareas.

Meta acaba de retirar de la red un asistente de machine learning dedicado, en la mejor de las teorías, a «almacenar, combinar y razonar sobre el conocimiento científico». Como en algunas ocasiones anteriores cuando se abre un algoritmo al uso general, los primeros usos que proliferan no son necesariamente los más edificantes, lo que ha llevado a que algunos utilizasen la herramienta para generar supuestos estudios científicos sobre temas de todo tipo, desde los beneficios de ser de raza blanca hasta los de ingerir cristal triturado, pasando por unas instrucciones para hacer napalm en la bañera de casa.

De nuevo, la demostración de que las herramientas pueden ser tan buenas o malas como las intenciones de aquellos que las utilizan. En este caso, poner a prueba la idoneidad de un asistente para demostrar que, efectivamente, carece del rigor mínimo necesario para posibilitar un uso no supervisado es algo que no deja de tener su valor, pero deberíamos, antes de tirar el experimento a la basura, reflexionar algo sobre él: ¿realmente la idea era generar un asistente capaz de generar texto que pueda ser copiado y pegado en un artículo de Wikipedia? ¿O la idea original, y por tanto, el uso esperado, era otro?

Cuando una persona investiga, debe partir de un primer paso: revisar cuidadosamente, entender y organizar todo lo que sobre ese tema ha sido publicado anteriormente. La llamada revisión de la literatura es una parte fundamental de todo proceso de investigación, dado que permite entender el estado de una cuestión concreta, y sobre todo, lo que pretendemos aportar a ella con nuestro trabajo, motivación fundamental de quien lleva a cabo una investigación, la plasma en un working paper, y la envía a revisión para que termine siendo una publicación científica.

La revisión de la literatura es, como tal, importantísima: permite hacerse una idea de lo que se ha investigado sobre un tema, entender qué papers o qué autores son más importantes o han aportado más al mismo, la cronología de desarrollo de la disciplina o las hipótesis que cada autor ha logrado demostrar. Pero del mismo modo que resulta fundamental en el proceso, también es, en muchos casos, enormemente intensa, y sujeta a errores derivados de un deficiente proceso de búsqueda.

De ahí que, ante un large language model que explora sus posibilidades de servir como asistente a un investigador, la finalidad que se le ocurra a un usuario cualquiera pueda ser «voy a generar papers que afirmen de manera razonablemente convincente la primera estupidez que se me ocurra», pero la que se le ocurre a un investigador de verdad tenga mucho más que ver con «vete a la biblioteca, y tráeme perfectamente apuntados todos los papers que encuentres sobre este tema, sin dejarte ninguno, anotando su cronología y relación, y su importancia en términos de centralidad referencial».

¿Que cabe pensar ante un uso de este tipo? La primera derivada es obvia: menos horas delante de la pantalla haciendo búsquedas en bases de datos, y sobre todo, menor arbitrariedad, porque por mucho que los papers académicos tiendan a ser razonablemente descriptivos en su título y a ser clasificados con las palabras clave adecuadas, nada nos garantiza errores en el proceso. Un asistente de investigación como ese sería, en una primera aproximación, el equivalente a un research assistant humano, es decir, a un estudiante que trabaja con un profesor para llevar a cabo, precisamente, tareas como la revisión de la literatura (o muchas otras).

En la práctica, la herramienta sería muy similar a Ross, el conocido asistente de abogacía (paralegal) que comercializó IBM en torno al año 2016 para automatizar las búsquedas en bases de datos de legislación: una versión electrónica de enviar a tu asistente humano a revisar todas las instancias del país, en todos sus estamentos y tribunales desde los más locales hasta el Supremo, pasando por los estatales, etc., y que te trajese de vuelta y adecuadamente anotados todos los que pudieran ser razonablemente relevantes. Una base fundamental de la Common law o derecho anglosajón, que aparentemente podía ser bien automatizada e incluso dotar a los bufetes que lo utilizasen de una ventaja en términos de precisión o incluso de rentabilidad (menos horas de personal humano imputadas al cliente).

En segunda derivada, la cuestión es más problemática: ¿qué parte del proceso de investigación emerge realmente de la tediosa tarea de buscar y rebuscar entre muchísimos papers y de poner materia gris al servicio de la clasificación, la categorización y la relación de ideas? Para mi queridísimo advisor doctoral, Burt Swanson, la revisión de la literatura era un proceso fundamental, hasta el punto que una vez que sus doctorandos habíamos tomado la decisión sobre nuestra temática y foco, nos pedía que escribiéramos un review paper, una publicación que presentase los frutos de esa tarea de manera organizada y tratando de aportar valor a quienes pretendiesen investigar en ese mismo tema.

Aquí no hablamos de tonterías como «asistente, escríbeme un paper sobre este tema». Quienes investigan o han investigado alguna vez, entienden el trabajo que hay detrás de la tarea, los pasos del proceso, su potencial importancia de cara a la carrera profesional, y no se les pasa por la cabeza ni remotamente dejar determinadas cosas en manos de un asistente robótico, por bueno que sea. Pero una cosa es «escríbeme esto», y otra muy diferente, y mucho más razonable, es «genérame un documento de trabajo adecuadamente procesado con el resultado de llevar a cabo tareas como lanzar búsquedas en una base de datos, revisar los resultados y organizarlos». Lógicamente, a base de trabajar con un investigador determinado o en un campo determinado, la competencia del asistente irá mejorando, haciéndose más eficiente, y brindando resultados que ayuden más al investigador a plantear o presentar sus hipótesis.

Si automatizamos la tarea de revisar la literatura, ¿estamos generando un beneficio al investigador, o por el contrario, estamos yendo en contra de la calidad de su preparación al evitarle un trabajo que debería hacer él mismo y que puede aportar mucho a su conocimiento de la materia? El abogado que se acostumbra a utilizar Ross, ¿es mucho más eficiente y mejora en su práctica, o se hace más vago, más indolente y deja, por ejemplo, de conocer de memoria los casos más relevantes y significativos en su área? En último término, ¿el asistente ayuda al investigador, o lo perjudica? ¿Los investigadores del futuro serán más productivos y podrán dedicar más recursos a la investigación como tal, o serán una panda de ignorantes que relajan una tarea importantísima y fundamental en una herramienta de machine learning?


This article is also available in English on my Medium page, «Using algorithms for scholarly research is more than an academic question»

15 comentarios

  • #001
    Xaquín - 20 diciembre 2022 - 15:26

    Vaya preguntitas finales. En ellas radica el meollo de esa dejadez involuntaria, que todo científico (o simple crucigramista) tiene, cuando deja de muscular sus circuitos neuronales, para que «otros» (humanos o algoritmos) «investiguen» por ellos.

    Y hasta le pasa al mafioso , que empieza a dejarse llevar los asuntos importantes por un asistente, por muy «amigo» que parezca. Forma parte, en cierto modo, de la pasión por la silicona, aunque a niveles mucho más profundos.

    Porque, lo que está claro, es que por ahora la IA no es nada autónoma, por lo que dependerá en exceso del que la programe. Y la falta de creatividad (real!), que tiene, por ahora, cualquier logaritmo que se precie de serlo, es un límite infranqueable.

  • #002
    Gorki - 20 diciembre 2022 - 17:17

    Pues no me me parece nada mal que se creen una especie de «Google con esteroides» al que le puedas pedir algo así como «Búscame todo lo que haya sobre «hidrolisis del agua» en cualquier idioma, traducido y ordenado por importancia académica e inversamente por fecha. Sería genial que los investigadores tuvieran una herramienta de este tipo y es muy posible hacerla.

    Yo participé en algo parecido pero mucho mas limitado, para la Cámara de Empresarios que daba la reglamentación y normas legales de temas relacionados con el medio ambiente tomadpos de los boletines tanto de europeos, como el BOE, como los autonómicos y municipales que se publican digitalmente.

    Contestaba preguntas como lo «legislado sobre humos de chimeneas» o «sobre el reciclado de restos de poda» o «sobre normas para hacer un chiringuito en una playa»

    • Juan T. - 20 diciembre 2022 - 19:34

      Estoy contigo.

      La evolución inevitable del asunto es crear AI ´s especializadas en temas concretos que alimentarán al algoritmo con toda la bibliografia sobre el tema en cuestión además de estar conectadas a la red con las últimas investigaciones sobre el tema en particular lo que agilizará enormemente la búsqueda de información a un investigador serio.

      • chipiron - 20 diciembre 2022 - 21:31

        Aunque entiendo vuestro punto de vista, tengo que disentir.

        Para poder hacer investigación que genere conocimiento nuevo es fundamental comprender uno mismo que se ha hecho hasta la fecha y que de nuevo aporta tu contribución.

        Si lo hace un bot, puedes encontrarte que lo que pretendes publicar ya está, no solo inventado o ideado, si no publicado. Pero como has automatizado la tarea, no te has dado cuenta que tu artículo no aporta nada nuevo.

        Como dice Enrique, la buena investigación, un trabajo de investigación de calidad, empieza por un buen conocimiento del estado del arte en el tema en el que pretendes contribuir al avance del conocimiento.

        Si no puedes reinventar la rueda!

        • Gorki - 20 diciembre 2022 - 23:21

          Creo que algo se ha perdido en mi explicación,

          La labor de recolección de todo lo que se ha publicado, es el punto de partida para el investigador, no el final de su trabajo,

          Si lo que hace es un refrito de lo ya descubierto, el resultado es eso, un refrito. Pero si partiendo de lo ya descubierto, abre un nuevo camino, para avanzar, eso es investigación. La recoleccion de información es el PASO PREVIO al comienzo de la investigación, precisamente para no volver a descubrir la rueda.

          En el caso que puse de lo que hicimos nosotros con los BOE, si por ejemplo un empresario, quería hacer nuevas tejas, podía obtener sin esfuerzo todo lo reglamentado, para la extracción de arcilla, tanto a nivel europeo como nacional, autonómico y municipal con temas como .que hacer con los cascotes de las tejas deformes, o las calidad mínima que tenia que tener el gas que soltaran las chimeneas,

          Con ese conocimiento los ingenieros, iniciaban su tarea de diseñar el nuevo tejar.

    • takis - 3 enero 2023 - 12:00

      Con chatgpt se pueden buscar articulos cientificos, es verdad que no funciona 100% bien pero te da articulos por los que empezar, te los resume y puedes pedirle articulos con ciertas características.
      Muy útil!

  • #007
    menestro - 20 diciembre 2022 - 17:27

    Sí, es una forma de enfocarlo, después del parón que se realizó en temas jurídicos sobre los asistentes legales automatizados (pasante) como el que comercializo ROSS Intelligence, que está basado en los servicios que ofrece Watson de IBM. A todo proceso de hype le sigue una fase de reducción de expectativas.

    A día de hoy, el tratamiento de la información en temas legales es un auténtico caos, desde el despacho legal hasta el juzgado.

    Su automatización debes hacerse de forma racional, y no dejarse llevar por la tecnología de moda.

    Mucha de la labor de los asistentes basados en machine learning se orienta hacia la recuperación de información, o procesamiento documental y fundamentación legal, más que a la toma de decisiones o elaboración de juicios sintéticos (advice/assessment), en los que no frecen resultados demasiados buenos, como se ha comprobado con ChatGPT.

    Mucho menos van a realizar juicios y elaborar sentencias, como ya hemos visto.

    Justicia robótica – Comment 435626

    En investigación, al menos durante la carrera, se espera que el estudiante fundamente su formación y la obtención del título en esa labor de criba y elaboración del trabajo documental y la capacidad de fundamentar un criterio original y argumentado en la publicación (paper) o trabajo de fin de carrera.

    Lo único que nos faltaba ya, son más tesis doctorales realizadas a base de copy paste y galeotes de alquiler.

    Pero sí pueden ser útiles para hacer un «abstract» o «Paper Review», por ejemplo.

    Utilizar asistentes basados en modelos generalistas de lenguaje (LLP/NLP) para investigación es un uso muy grosero de esa tecnología, que ofrece mejores herramientas y más refinadas para el tratamiento de los datos obtenidos y su aplicación en el área de estudio. Es como si un fotógrafo usara el Paint.

    Eso sí, conociendo lo que se cuece en quinto de carrera de algunas facultades, esto va a ser un festival. La vida real.

    Harvey – Beta

    LawAhead Hub – IE

    ROSS partners with OpenAI

    Me encanta la biblioteca del claustro de profesores del CEU. sí, tiene llave.

  • #008
    paco - 20 diciembre 2022 - 18:37

    «No fracasé, sólo descubrí 999 maneras de cómo no hacer una bombilla». Thomas Alva Edison

    • Alqvimista - 21 diciembre 2022 - 07:52

      Este es, precisamente, el mejor ejemplo de lo que dice Gorki.
      Edison investigó lo que se había hecho antes, compró la patente de la bombilla a Woodward y Evans y la mejoró para que fuera más longeva y barata. Esto le llevó año y pico y una fortuna.
      Sin la investigación previa probablemente se habría gastado, inútilmente, mucho más tiempo y dinero.

  • #010
    Javier Lux - 21 diciembre 2022 - 08:19

    Despues de unas semanas haciendo preguntas de vez en cuando al chatbot chatGPT me pregunto que está haciendo google, porque su motor de búsquedas comparado con el chatGPT parece un Renault Deaphine frente a un Megane actual

    https://www.auto-data.net/images/f103/Renault-Dauphine.jpg

    Después de darme el texto construído, ChatGPT podría darme una lista de link relevantes para ampliar su informacio, y eso sería algo infinitamente mejor el Google actual. Entiendo que los costes de esas «búsquedas con esteroides» son más caros, pero podrían reservarse unas cuantas búsquedas a la semana gratuitas, y luego diversas tarifas.

    Creo que en unos pocos años va a cambiar significativamente la forma en la que accedemos a internet para buscar información. Oportunidad de negocio para algunos, y espero que esa potencia no sea de uso exclusivo de ricos, y haya versiones poderosas gratuitas.

    Ese chatbot me ha provocado lo que los anglos llaman «mind-blowing» o una sobre-excitación pensando el el magnífico futuro que algo nos depara. Me imagino que a muchos os ha pasado.

    • lector - 21 diciembre 2022 - 11:42

      Como sospechas sencillamente LLM ahora mismo es demasiado caro de ejecutar. Supongo que con el tiempo será más eficiente y el nuevo hardware también ayudará.

      Y Google tiene un modelo prácticamente publicitario. Nunca ha ofrecido ninguna feature premium en su buscador más allá de que pongas anuncios. Sería raro que empiecen ahora.

      https://twitter.com/Carnage4Life/status/1601244658377846784?s=20&t=A1I560wq5-sQv2Y1lJ7f0Q

  • #012
    f3r - 21 diciembre 2022 - 12:46

    Esto me recuerda a un generador de papers matemáticos (mathgen) con el que un investigador consiguió publicar un paper, a modo socarrón, para demostrar lo mierder que puede llegar a ser el mundillo de la literatura matemática de media/baja estofa.

    https://thatsmathematics.com/blog/archives/102

    • Gorki - 21 diciembre 2022 - 14:18

      No, si hacer mierdas es sencillo. Tengo un programa que hace cuartetas, cuatro versos de ocho sílabas rimando A B A B, y lo hace perfecto, pero llamar eso poesía es absurdo. No pierdo la esperanza que algún día se me ocurra como meter un mensaje poético en esos cuatro versos, pero de momento no se como hacerlo.

  • #014
    Alrik - 22 diciembre 2022 - 12:42

    Para mi existen varias claves en esta tecnologías:

    – Eliminará muchos trabajos. Teleoperadores, médicos de cabecera, funcionarios de cara al público etc.
    – Esto va a complementar a la gente. De entrada es mucho mejor que cualquier buscador hasta ahora. Y aunque genera falsos y erróneos resultados, es cuestión de tiempo que se solucione.
    – El teclado y el ratón ha muerto (o casi). Si puede entender el lenguaje perfectamente podrá interpretar nuestras órdenes y cambiará la manera en la que interactuamos con nuestros dispositivos. Aunque no dejarán de usarse los periféricos tendremos un nuevo abanico de opciones.
    – Una IA a la que le has explicado como tiene que hacer las cosas y puede hacerlo es lo mismo que automatizar. Servicios como IFTTT, Zapier y demás podrían ser posibles conectores de estas IA’s con el mundo.
    – Probablemente llevemos IA’s de estas enchufadas escuchándonos durante todo el día en el trabajo, para poder hacer resúmenes de reuniones. Recordarnos cosas. En resumen, ser nuestros secretarios. Nuestro Jarvis.

    Claro que tenemos que tener en cuenta los problemas de privacidad que supone todo esto. Aunque por inercia no podremos evitarlo. Gente que utilice esta tecnología sencillamente va a ser más eficiente que los que no.

  • #015
    JG - 23 diciembre 2022 - 10:52

    Lo primero de todo . Queremos ser solo usuarios? ya q siempre abórdanos estas temáticas (ChatGPT) como usuarios operadores … y no como desarrolladores competidores… así q los comentarios son q guay el Ferrari este acelera, pero al girar en curva se va de culo …pero seguimos sin hacer Porsches…!
    Cuantos por aquí han trabajado p.e. con Python, y librerías tensorflow y keras para hacer NLP mínimo como puede ser sentiment Analysis?

    Segundo. Es útil?. Retomando el plano de usuario, si algo me busca referencias …y es inteligente…como el ChatGPT supongo q puedo interrogarle por q me ha traído tal o cual referencia o q significado tiene tal referencia… o sea q bien por ese trabajo !

    Tercero. Q aprendo yo? Si le hago preguntas y dialogo con ChatGPT, puede q mucho … pero al hacerlo en menos tiempo y con menos esfuerzo , interiorizo tanto en dicho conocimiento?. Volvamos a las analogías? Yo puedo picar una piedra con otra piedra, o picar una piedra con un cincel y un martillo, o picar una piedra con una máquina Neumatica, o picar con una máquina neumatica autónoma… q se yo de picar piedras?? Seguro q menos q si lo hago a mano … pero nada me impide montarme talleres para hacerlo a mano y hacer más test de laboratorio para verificar hipótesis, con muchas horas de trabajo, … Sí, efectivamente Google y ChatGPT nos hacen perder “músculo neuronal” … pero nada impide q vayamos al gimnasio …y q respondamos como humanos al reto de conocimiento del ChatGPT con un conocimiento más abstracto, … de manera q subamos un escalón (!) y q usemos las respuestas de estas entidades IA como nuevos ladrillos (building blocks) para construir nuevas casas del conocimiento. Está por ver.

Dejar un Comentario

Los comentarios están cerrados