Visualizando el avance del machine learning

En la foto, el Bonnier. Para la mayoría, simplemente un libro viejo. Pero para miles de estudiantes de Biológicas de media Europa, la tortura que simbolizaba el examen de Botánica (en el plan que yo estudié, la asignatura era Fanerogamia, separada de la Criptogamia, que se estudiaba en el año anterior) en el que tenías que identificar, utilizando las claves dicotómicas del Bonnier, un número determinado de especies vegetales, entre las que siempre había algunas gramíneas, con taxonomías particularmente enrevesadas y basadas en atributos mínimamente discernibles, para los que, en ocasiones, era preciso utilizar la lupa binocular. Una tarea ardua, pesada y que para llevar a cabo con ciertas garantías, era preciso acumular una cierta experiencia. Por lo que he podido encontrar, la determinación botánica sigue haciéndose del mismo modo, se sigue utilizando el Bonnier, aunque la edición es más moderna, e incluso sigue formando parte de los temarios de algunas oposiciones a profesorado.

En mi época, a mediados de los ’80, el Bonnier que utilizábamos era exactamente ese de la ilustración (sí, ya sé que parezco el abuelo Cebolleta, pero os prometo que en su momento ya tenía aspecto de libro viejísimo, aunque la edición era de 1972), estaba encuadernado en rústica y con un papel de malísima calidad, no estaba traducido al castellano, y a mí, que en aquel momento ya llevaba algunos años interesado por la tecnología y las bases de datos, me obsesionaba la idea de informatizarlo. Incluso llegué a preparar una estructura de una base de datos y una interfaz sencilla para ello con las herramientas que utilizaba entonces, dBASE y Clipper, todo sobre MS-DOS. De haber seguido con el tema, cosa que no hice al ver el ingente trabajo que habría supuesto digitalizar todas aquellas fichas y atributos de varios miles de especies de plantas vasculares, habría conseguido simplemente una cierta comodidad: en lugar de movernos por las páginas del libro, habríamos podido seleccionar las opciones en una pantalla… visto así, no parecía realmente un gran avance.

Ahora, más de treinta años después, me encuentro a través de Boing Boing un artículo de Nature, «Artificial intelligence identifies plant species for science«, en el que dan cuenta del desarrollo de un algoritmo de machine learning que va bastante más allá: tras entrenarlo con unas 260,000 imágenes digitalizadas de más de mil especies de plantas en herbarios de todo el mundo – se calcula que hay unos tres mil herbarios de cierta entidad en el mundo, con un total aproximado de unas 350 millones de muestras, de las que tan solo una pequeña parte están digitalizadas – el algoritmo es capaz de determinar la planta que se le está mostrando con unas tasas de acierto aproximadas del 80% (en un 90% de ocasiones, la especie estaba entre las cinco primeras elecciones del algoritmo). Esas tasas de acierto superan las habituales en botánicos expertos en taxonomía (en mi época, para aprobar necesitábamos identificar correctamente tres plantas de un total de cinco, y éramos simples estudiantes de tercer año).

Cuando ves a un algoritmo capaz de llevar a cabo una tarea cuya dificultad eres capaz de valorar adecuadamente en función de tu experiencia, es cuando de verdad te das cuenta de lo que puede llegar a suponer el machine learning. En su momento, mi intento rudimentario de digitalización simplemente solucionaba un factor de comodidad, reducía una parte de la fricción implicada en la determinación. Ahora, basta con mostrar al algoritmo la imagen digitalizada de la planta, y directamente contesta con su género y especie, con un 80% de acierto.

¿Qué implicaciones tendrá algo así para el desarrollo de la Botánica? En pocos años, teniendo en cuenta el rendimiento del algoritmo y las necesarias correcciones progresivas, ya no existirán investigadores capaces de determinar la especie de una planta sin la ayuda del correspondiente algoritmo: los pocos que puedan hacerlo serán jubilados que aún guarden el Bonnier en su estantería, y recuerden cómo utilizar con un mínimo de soltura sus claves dicotómicas. Y sin embargo, esto no significará una pérdida del valor del profesional como tal, porque solo con los conocimientos de esos profesionales se habría podido llegar a adiestrar a ese algoritmo, y porque el papel de esos profesionales estará ya situado mucho más allá, en un escenario en el que ya no será necesario invertir tiempo ni esfuerzo en la determinación de una planta, porque eso se hará ya de manera automatizada. Será preciso modificar la forma de enseñar la disciplina, incluir otro tipo de ejercicios, otros materiales y otras disciplinas, ampliando así las fronteras del conocimiento. ¿Será la idea de perder la habilidad de determinar plantas a mano una gran pérdida como tal para la disciplina? La respuesta es simplemente… no. Del mismo modo que hoy prácticamente nadie sería capaz de escribir en cuneiforme sobre una tabla de arcilla.

¿Algo que ver con la idea de robots «inteligentes»? No, un algoritmo que clasifica especies vegetales lleva a cabo una tarea que hasta entonces, solo un humano podía hacer, pero está muy lejos de la inteligencia: simplemente es capaz de llevar a cabo una tarea muy definida en función de una serie de atributos de una muestra. Sácalo de ese entorno, y necesitará muchísimos ajustes para poder aplicarlo a otra tarea. La inteligencia es otra cosa. ¿Algo que ver con la idea de robots que sustituyen a expertos en Botánica? En absoluto, y de hecho, la idea parece, vista así, de un simplismo que asusta. Hablamos de otras cosas: de aplicar la inteligencia humana a tareas de más entidad, de liberar recursos que no estaban siendo optimizados… de más progreso y más avance en la disciplina. ¿Podríamos imaginar de alguna manera a profesionales de la disciplina negándose a colaborar con el entrenamiento del algoritmo por miedo a ser eventualmente sustituidos? La sola idea resulta absurda, prácticamente ofensiva.

¿Cuántas de las cosas que hoy consideramos exclusivamente humanas acabarán haciendo algoritmos? ¿Cuántas cosas más podremos hacer cuando sea así?

This post is also available in English in my Medium page, “Visualizing the progress of machine learning»

#001
Mercè Gamell - 12 agosto 2017 - 14:29
Pensé exactamente en el Bonnier y en mi propia colección de hierbas cuando vi el artículo de Boing Boing. Creo que vivimos tiempos extraordinarios y aún no hemos visto casi nada. Me ha gustado ver hablar de «el Bonnier» así como les llamábamos, con ese aura que tenían los libros imprescindibles. Otro era «el Lehninger», que también tendrás en casa.
- Miguel A. Tovar - 13 agosto 2017 - 10:08
  Ciertamente el Lehninger era otro clásico que manejábamos.
#003
Daniel Terán - 12 agosto 2017 - 15:50
Y si al algoritmo se le da una lupa, ¿no aumenta la tasa de acierto? Y con una muestra de tejido supongo que será ya infalible.
#004
Gorki - 12 agosto 2017 - 18:07
La cosa no es nueva, el «mamotreto» era un libro que contenía el compendio de lo que tenían que aprender los estudiantes de bachiller de Alcalá de Henares, y ha pasado al lenguaje, como sinónimo de libro gordo de poca utilidad.
En todas las carreras hay un «mamoterto» que hay que aprender de memoria, sea la botánica en biología, la anatomía en medicina, la resolución de integrales en ingeniería, o el Código de Derecho Civil en derecho.
Siempre el adquirir un título no ha sido acabar una «carrera», sino superar una carrera de obstáculos, en forma de Mamotretos, Catedráticos hueso y cosas semejantes.
Recuerdo de cuando estudiaba, que la asignatura más difícil de aprobar de Ingeniero de Caminos, era el dibujo de primero, donde exigían hacer unos planos a tinta china, rotulados y pintando lo que era madera con la veta y el cemento con las piedras del hormigón y si no lo pintabas, no aprobabas.
Por supuesto, ningún ingeniero, una vez aprobada la asignatura, volvía a usar un «rotring», ni hacia un plano ni tan siquiera a lápiz, pero se debía considerar que si un ingeniero no sabia hacer un plano a tinta china, los delineantes se le iban a subir a las barbas. No importaba que faltaran 10 años para que apareciera el CAD y desaparecieran los delineantes a tinta china.
Otra cosa dificilísima, es saber en farmacia el nombre latino de las plantas, hoy hay app que con bastante éxito, te dicen el nombre latino de las plantas con sólo hacerlas una foto. Pero no importan los avances técnicos, si de lo que se trata es de dificultar el obtener una licenciatura, habrá un catedrático que inventará otra cosa «imprescindible» de saber. para poderte dar la titulación con cuentagotas..
#005
Xaquín - 12 agosto 2017 - 18:42
Me llega con una frase (media, ya que la mitad es tuya): visualizando el avance del machine learning y la obsolescencia del proceso educativo.
#006
Carlos Quintero - 12 agosto 2017 - 23:19
No veo por qué los profesionales de este tipo deberían estar temerosos de que haya algoritmos que hagan tareas que antes sólo podían hacer ellos. En muchísimas disciplinas hay muchas cosas que ignoramos, y que necesitan investigación, y muchas cosas que están por hacer con lo que ya sabemos, y que no tenemos tiempo porque nos lo quitan tareas bastante mecánicas.
Recuerdo que allá por 1998 asistí a una presentación de Visual Basic 6.0 en la que el conferenciante demostraba cómo crear un formulario con dos clicks arrastrando campos de una tabla de una base de datos, comentando que «se nos iba a acabar el trabajo» a los desarrolladores. Naturalmente el trabajo no solo no se nos acabó, sino que cada año tenemos más cosas que aprender y aplicar.
Ojalá todos los profesionales podamos tener más tiempo para algo que de momento solo podemos hacer nosotros: pensar, generar nuevas ideas, explorar, y abrir nuevos caminos que a saber dónde nos llevarán.
#007
Miguel A. Tovar - 13 agosto 2017 - 10:06
¡Qué bueno ver el Bonnier por aquí! Era el libro que empleábamos en la asignatura de Botánica en 2º de Farmacia. Teníamos que hacer un herbario con 200 especies y un examen de visu. Habría estado bien disponer de esa aplicación que comentas.
#008
Anisótropo - 13 agosto 2017 - 11:03
Es más, quizás, dentro de poco, ni siquiera necesite a expertos que le enseñen botánica. De hecho, creo que hay un ordenador en la Universidad de Manchester tratando de descubrir leyes científicas y postular teorías, sin ayuda de nadie. A AlphaGo ya no le enseñan expertos, sino que aprende ya más jugando contra sí mismo.
#009
Ignacio Cabrero - 13 agosto 2017 - 12:39
En BCN usábamos el Bonnier y el Font i Quer.
El examen era mínimo 3 de 5, 60%. Pero aunque con ML suba al 80%, no me fiaría ni de mí, ni del algoritmo, al ir a buscar setas.
La técnica disruptiva para clasificación de especies, será el test genómico. Hasta entonces el ML puede ser una ayuda, para algunos problemas,, pero no la herramienta adecuada para una alta probabilidad de acierto.
El ML sirve para lo que sirve. No todo se arregla con un martillo, pero si tenemos clavos y maderas, sí puede ser la herramienta ideal.
#010
JJ - 13 agosto 2017 - 16:08
Siempre nos quedará el deporte. Yo a veces hago sudokus, pero también suelo jugar a memorizar cosas absurdas. Por ejemplo, miro relojes en Amazon u otras webs; fotos, marcas, modelos, precios, características, y trato de memorizarlo todo. Luego, semanas después visualizo lo mismo, o casi, quiero decir, en el mismo orden, precio decreciente o viceversa, según se me ocurra. Y al ir viendo las fotos intento recordar los datos anexos. Y es una forma de ejercitar la memoria bastante entretenida (por lo menos para mi).
Pero intuyo que lo que a mi me entretiene, a un algoritmo, en manos de una IA, le aburriría.