El día que convertí a mis amigos en material de investigación

Un artículo de investigación de NBC, «Facial recognition’s ‘dirty little secret’: Millions of online photos scraped without consent«, saca un tema interesantísimo al hilo del uso de fotografías por parte de IBM para entrenar sus algoritmos de reconocimiento facial: la compañía utilizó fotografías extraídas de Flickr y publicadas con licencias Creative Commons para crear una base de datos – que recientemente publicó en abierto – y utilizarla en el desarrollo de su tecnología.

El tema me toca de cerca: soy usuario de Flickr prácticamente desde sus inicios, aunque haga tiempo que no la utilizo, tengo más de 3,600 fotografías en su repositorio, y publico además todas mis fotos – como la inmensa mayoría de mi toda mi producción profesional – con el modelo de licencia Creative Commons menos restrictivo (CC BY o Atribución). Utilizando una herramienta que la propia NBC ha creado para poder consultar la base de datos que IBM ha utilizado para el entrenamiento de sus algoritmos de reconocimiento facial, veo que la compañía ha tomado tres imágenes de mi colección, algunas de ellas fotografías tomadas en algún evento en las que aparezco yo con amigos. Amigos que, sin duda, no tuvieron ningún problema con que las publicase ni con que las etiquetase o asociase una licencia abierta, pero que se encuentran ahora con que sus caras, y posiblemente algún elemento más de los metadatos o de la información asociada a la imagen como sus nombres, han sido utilizados por una compañía para desarrollar una tecnología cuyo uso se asocia con bastantes elementos de polémica.

El asunto es complicado, así es que dividámoslo en partes: en primer lugar. la legalidad del uso de las fotografías. Estoy completamente acostumbrado a que muchas de mis fotografías sean utilizadas para muchos fines. Sé por supuesto lo que conllevan las licencias abiertas, y, por lo general, me divierte y me gusta encontrarme una fotografía hecha por mí y utilizada en alguna publicación: nunca pensé que siendo, como soy, un fotógrafo que no pasa del nivel de aficionado, podría tener fotografías publicadas en medios de todo tipo como Wired. Sin embargo, la pregunta de si es legal el uso que IBM está haciendo de esas fotografías tiene otros matices, porque no se trata tanto del uso de las fotografías como tal, sino específicamente de un elemento, las caras de las personas incluidas en ellas, sobre el que, lógicamente, ni soy quien para decidir los posibles usos, ni debería tener derecho alguno.

¿Cometí un error al etiquetar por defecto todas mis fotografías como Creative Commons BY y debería, por ejemplo, haber excluido de dicha licencia y mantenido en copyright estricto todas aquellas que contuviesen imágenes de personas? Es posible que sea así, que mi aplicación de la licencia no fuese completamente responsable o que en aquel momento no me plantease determinadas posibilidades. Posiblemente, utilizar un mecanismo de licenciamiento por defecto, una blanket license, de todas mis fotografías, no fue del todo correcto, y debería haberme planteado, cada vez que subía una fotografía a Flickr, el tipo de licencia que debería llevar, no lo sé. Ahora bien, incluso considerando que el error estuviese en mí como autor de las imágenes por utilizar un mecanismo que Flickr me ofreció, ¿tiene sentido que IBM explote ese error y decida utilizar mis fotografías, con las caras de mis amigos, como parte de una base de datos? ¿No está, con ello, excediendo el uso de una licencia que, en principio, se diseñó para regular el uso público de las imágenes, y no para otros usos? Sin ser abogado, creo que el caso podría seguramente dar para más de una argumentación.

Por otro lado, IBM afirma que se limitó a utilizar un fichero de cien millones de imágenes de 14GB que Yahoo!, entonces propietaria de Flickr, publicó en abierto en Yahoo! Research para su uso por investigadores, lo que podría trasladar la discusión sobre la responsabilidad de un posible mal uso de la licencia a otro domicilio. Esa base de datos original fue reducida en tamaño por IBM, que la convirtió en un fichero de aproximadamente un millón de caras, y suplementada añadiendo unos doscientos valores que van desde medidas de determinadas dimensiones faciales hasta cuestiones como el tipo de pose, el tono de piel, el género o la edad estimada.

A partir de ahí, esa base de datos ha sido utilizada para entrenar todo tipo de algoritmos, incluidos algunos de uso policial, o su propia herramienta, IBM Watson Visual Recognition, que permite la estimación de edad o género de personas, o incluso el reconocimiento de personas específicas en fotos o vídeos. Considerando la polémica asociada con las tecnologías de reconocimiento facial, posiblemente la compañía debería como mínimo haberse planteado la posibilidad de solicitar el correspondiente permiso a los autores de las fotografías, en lugar de suponer que una licencia determinada que nunca estuvo, en su concepción, asociada con ese tipo de usos podía ser interpretada como un permiso afirmativo y, sobre todo, ilimitado.

En este caso, IBM afirma haber utilizado esa base de datos para tratar de reducir sesgos en el reconocimiento facial y mejorar la calidad de esa tecnología. Pero esa base de datos está ahí, disponible en abierto para cualquiera que se la quiera descargar: ¿cuántos usos y de qué tipo pueden potencialmente llevarse a cabo con ella? ¿Realmente tiene sentido que esos posibles usos puedan realizarse sin mediar ningún tipo de permiso expreso, sin derecho de oposición o sin ningún tipo de información?

¿Está el problema en un exceso de confianza por parte de los autores de las fotografías o en una mala interpretación de las posibilidades que ofrecían esas licencias? ¿En una interpretación abusiva de las compañías sobre esos contenidos? ¿Error mío? ¿Error de Yahoo!? ¿Error de IBM? ¿De todos? Pero sobre todo… ¿existe, como tal, un problema, o es una situación, la del uso de todo aquello que publicamos en la red para cualquier fin, a la que, sencillamente, nos vamos a tener que acostumbrar?

This article was also published on Forbes, “The day I fed my friends to an IBM algorithm«

#001
xaquin - 13 marzo 2019 - 18:20
Como diría Rosalía (cantante) malamente queda otra que aconstumbrarse (ligando así con tu final). En cualquier rincón del mundo te pueden sacar la jeta (y pronto algo más, por ejemplo sensaciones y pensamientos). ¿Como controlar su uso?
El problema, como en otras cosas, es verlo del revés. ¿Quién usa malamente eses datos? Es responsabilidda nuestra que los gobiernos y las grandes empresas (y los traficantes varios de toda calaña) abusen de nosotros.¿ Nos «gusta» seguir buscando chivos expiatorios (para colmo en la tecnología, por ejemplo) para no asustarnos de lo irresponsables qiue somos?
Bienvenidos al mundo real, donde es más fácil acusar a IBM o Trump de abusos varios, que intentar cambiar los procesos de elección democrática y posterior seguimiento democrático ( y final «apeo de burra» a quien no cumple con el mandato mayoritario).
En fin, más de lo mismo. Que ya sabemos que el cambio climático es responsabilidad del diarreico mental llamadoTrump.
#002
Gorki - 13 marzo 2019 - 18:58
Entiendo que Google ha utilizado una gran cantidad de retratos para «enseñar» a un algoritmo de reconocimiento de caras. De quien sean esos retratos es intranscendente.
Supongamos, (y es posible que lo haya hecho), que Google utiliza las fotografías de Google Maps, para enseñar a identificar la marca y modelos de automóviles a un algoritmo, ¿Tendría importancia que hubiera utilizado la imagen de mi automóvil para ello, aunque lo hubiera hecho desde un satélite y sin mi permiso? -Pues no
Pues menos aun, si ha utilizado fotografías subidas voluntariamente con licencia CC
Lo que si es realmente problemático, es el uso que le va a dar a ses algoritmo con reconocimiento de caras, Se me ocurre poco usos que sean realmente honorables.
- Enrique Dans - 13 marzo 2019 - 19:03
  Es IBM, no Google ;-)
  - Gorki - 13 marzo 2019 - 21:11
    ¡Joder!. Lo fácil que es empezar una Fake News
#005
Luis - 13 marzo 2019 - 19:46
Las licencias CC y otras se refieren a la propiedad intelectual y a sus usos comerciales o personales. No creo que ninguna atribución especifique que se pueda usar para cuestiones de Big Data en lo que al tratamiento de datos personales, que lo son, de personas,, que aparecen en las creatividades se refiere. Aunque los datos sean agnósticos, en Europa al menos, es como mínimo cuestionable. Ya que sí, son datos personales, y no, el uso creatividades para ese uso, no tiene nada que ver. Pero NADA. Por lo tanto, mal, y a ver qué pasa en adelante…
#006
Cristina - 13 marzo 2019 - 19:55
Es la interpretacion del uso comercial amen de la argumentacion «jugosa» que se le pretenda dar. La cuestión es qué tanto lleva IBM construyendo y por donde avanza? Red Hat es incorporada desde la óptica del open source. Al buscar IBM STOCK PRICE surge INTERNATIONAL BUSINESS MACHINES CORP. Como bien indicas se cruzan dos filosofias. Una de ellas, claramente en la busqueda constante del beneficio. Para que fue integrada Red Hat en el portafolio de IBM?. Al margen del mercado de inversiones, seguro integran funcionalidades ya desarrolladas o integran la filosofia misma. (Podria especular todo el dia :-) Pero el desarrollo de la cooperacion como habilidad es sumamente necesario.
#007
Fran - 13 marzo 2019 - 22:20
Yo como usuario de flickr también he vivido situaciones en las que mis fotos aparecian en otras publicaciones, algunas citándome otras no, algunas pidiendo permiso previamente y hasta otras suplantando la autoría.
Una foto con una catedral gótica en la que sale gente puede ser usada tanto para entrenar sobre edificios, sobre personas o sobre cosas que aún ni nos planteamos.
Al tener este tipo de licencia es lo que pasa, hay que ir acostumbrándose o cambiar el tipo de licencia;
#008
Moraleja - 13 marzo 2019 - 22:23
Me has recordado la bronca que le eché a mi hermano por subir a la red las fotos de una quedada. Le dije que subiera sus fotos pero no las mis hijas !!
Moraleja: perdí una cuñada pero gamé en tranquilidad cuando se divorció mi hermano de semejante especimen con coeficiente límite.
#009
Asier - 13 marzo 2019 - 23:03
El problema no solamente es saber el uso que se le dará (legal o ilegalmente) a todo lo que publicamos en Internet sino que esa información estará muy problamente en manos de ‘alguien’ para siempre, y no hay manera de saber lo que las futuras tecnologías van a poder deducir de esos datos acerca de nosotros, es decir, todo tipo de información sobre aspectos de nuestra vida personal que podríamos estar revelando de manera inconsciente, mediante técnicas que aún ni se han inventado.
#010
JOSE FERNANDEZ - 14 marzo 2019 - 10:33
El mundo evoluciono silenciosamente con la contribución de todos. Los que nos precedieron, los que estamos y los que estarán.
Todos aprendemos de todos y de nuestro contexto. Yo aprendo de verte a ti y tú de verme. Eso es aprender de la sociedad.
Unos aprenden para bien y otros para mal. Y si todos aprendemos de nosotros y de nuestras fotos mejor que mejor o peor que peor, pero siempre ha sido asi.
Yo no me rasgo las vestiduras de lo que es el presente. Pero el futuro es claro: el gobernante tendrá más herramientas – que nunca jamás – para controlarnos. Y nosotros no podremos hacer nada.
Y a los que hagamos oposición nos machacaran hasta extenuarnos. Nos marginaran, nos amedrantaran, nos bloquearan socialmente. Y aun asi el 50 por ciento de la sociedad que ahora defienden la privacidad – los que no piensen como nosotros los demócratas y liberales – justificaran su uso para semejante atropello.
Y ahí la hipocresía de los que están contra todo: solo lo están cuando no tienen el poder. En el poder que tanto viste y luce, las razones son diferentes – habla el otro que ya no es el que fue, porque ahora está en otro lado, o sea ahí mismo en el centro del poder -. La doble personalidad del ser humano, el uso alternativo del derecho y de los argumentos que usamos (cuando creemos que nos benefician).
Eso es lo que tiene el poder y el uso de las herramientas a mano. En el poder todo se ve bien para aplastar al otro.
Tanta hipocresía en estos temas …. que me asusta el blablableo. Yo Enrique te veo como un defensor de un mundo de la privacidad que murió hace tiempo, un Quijote que lucha contra ese mundo que no va a ser asi jamás. La privacidad ha muerto y de mis fotos y las tuyas privadas aprenderán y aprenderemos todos. Y veremos nuestras sonrisas …¿ las ultimas antes de la debacle ?. Posiblemente serán las últimas. Como siempre, la tuya …una gran reflexión.
- Gorki - 14 marzo 2019 - 12:32
  Me encanta la privacidad, pero creo que fue una extraña circunstancia que caracterizo a la sociedad de las grandes urbes en el siglo XX. Una excepción a la regla, que era para el 98% de la sociedad, vivir habitualmente en un inmenso escaparate.
  Te pondré un ejemplo, Cuando era estudiante universitario además llevaba las fincas de mi familia, el sábado cogía AUTO RES y me iba a Rueda a resolver problemas y tomar decisiones hasta el domingo por la tarde.
  Como no todo iba ser trabajar, echaba la partida de mus en el bar, y un jugador habitual era el cabo de la Guardia Civil, máxima autoridad del cuartelillo de Rueda. Un día me dijo, tengo que actualizar tu ficha, a ver si me ayudas, y yo dije ¿Qué ficha? – La que hacemos a todos los que pudieran ser líderes del pueblo. Y yo dije ´¡ah, sí!, pues tráemela y te ayudo a rellenarla.
  Estábamos en la ultima época del Franquismo y ya las cosas no eran como antes, así que apareció el cabo, con unas fichas de cartulina del tamaño de tarjetas de visita de esas que tenían una doble raya roja sujetas con una goma elástica, donde venía mi vida y milagros, quienes habían sido mis antecesores, en que lado habían luchado en la Guerra Civil,. quienes eran mis amigos, si iba o no a misa, quienes eran mis empleados, mis ideas políticas y cosas por el estilo.
  Yo en el pueblo donde solo pasaba dos días a la semana y sin ayuda de Internet, había dejado suficientes rastros, para que los sucesivos cabos del cuartelillo de la Guardia Civil, sin haber hecho ningún curso en la CIA, ni dela CNI, tuviera una perfecta y acertada radiografía de mi persona.
  Por aquel tiempo, yo era delegado de curso en la revuelta y politizada Universidad. Salí delegado, porque los repetidores nos conchabamos y decidimos sacar un delegado para organizar a nuestro gusto los horarios de clase,y poner las clases de asignaturas «hueso» una detrás de otra, y las «marías» que generalmente habíamos aprobado, todas juntas o delante o detrás. Pues bien, en Madrid, era un completo mindundi y la policía no tenía ficha mía, pues no alcanzaba ni mucho menos el nivel de Marcelino Camacho o Nicolás Redondo.
  Por tanto, para hablar de perder la privacidad, hay que preguntar ¿Donde vivías? y para hablar de Democracia, hay que preguntar, ¿Que defienden en realidad los que se presentan como candidatos?
  - xaquín - 14 marzo 2019 - 18:22
    Una ejemplificación gorkiana sobre la relatividad de ese concepto llamado privacidad. Como siempre para saborear.
    Solo un matiz. Pienso que no es donde vives (Rueda o Madrid), son las circunstancias que te rodean allí donde estés. En Madrid uno más de multiples delegados, en Rueda un posible delegado de algo. La autoridda con miedo y con pocos medios, tiene que seleccionar al posible enemigo. En eso si que la tecnología hace maravillas.
    Pero, como también sueles repetir, se necesita confabular infinidad de perfiles falsos para dificultar esa concreción de entre tantas posibilidades. Y luego jugar con el hecho probado de que el poder autoritario no se puede rodear de mentes muy lúcidas (también son posibles enemigos).
#013
Paco - 14 marzo 2019 - 14:03
Hay quien se considera ombligo del mundo y se siente en la obligación de enseñar a los demás, no vaya a ser que se pierdan la vida y obra de tal joya.
En mi caso, una vida normal, una tortilla de patatas a la que no hago fotos porque las hay a miles de chefs con estrellas de todas las marcas de neumáticos, de la catedral de Santiago o cualquier lugar que visite hay cientos de fotos en páginas de viajes mejores que las que yo pueda hacer con el móvil. Sin ser feo, estoy en el grupo de los indiferentes, que no sirvo para portada de nada.
¿Por qué hay gente que no es capaz de tomar un café sin hacerle una foto a la espuma o al sobre del azucarillo y subirlo a Instagram?
#014
Gorki - 14 marzo 2019 - 22:23
En efecto hay que tener cuidado con lo que se sube a Internet, y lo que es peor, con lo que suben tus amigos y familiares, algo que sale de nuestro control. Mirar lo que pasa cuando un primo tuyo sube su genoma a la red. Habrá que subir genomas falsos aunque corras el riesgo de parecer un hijo adoptado.
https://gcbias.org/2018/05/07/how-lucky-was-the-genetic-investigation-in-the-golden-state-killer-case/
#015
Jorge - 26 marzo 2019 - 17:22
Cada vez hay que tener más cuidado la información, informacion es y siempre queda registrada en internet. A la vez que se abren muchas puertas de conocimiento internet esta llena de peligros. El otro dia lei un articulo que comenta que hablaba sobre seguros que gestionan la vida digital cuando una persona fallece. Sin lugar a dudas la tecnologia avanza a pasos agigantados.