Comentarios, toxicidad y machine learning

La iniciativa de Google para financiar proyectos innovadores en prensa digital, conocida como Digital News Initiative (DNI), publica los resultados de su primer año, y entre otros proyectos interesantes, aparece uno de El País que ha adaptado al español un algoritmo en inglés para la moderación de comentarios sobre el que hablé en su momento: Perspective, creado por Jigsaw (aquí, su experiencia previa con The New York Times).

El algoritmo permite gestionar comunidades grandes de comentaristas en páginas web de cierta popularidad, como es el caso de la gran mayoría de medios en la red, creando un filtro dinámico capaz de entender si un comentario es de naturaleza tóxica o no, y en caso de serlo, prevenir al comentarista en el momento de darle al botón de publicar para que lo cambie o, en caso de no hacerlo, proceder a una revisión manual. La versión creada por El País, además de entrenar el algoritmo con su amplia base de datos de comentarios en español, ha generado un procedimiento para enviar los comentarios a revisión a revisores más o menos experimentados en función de su nivel de toxicidad.

La tarea de moderación de comentarios en un medio de comunicación puede resultar, en muchos casos, implanteable mediante medios simplemente humanos, y convertirse en un verdadero problema que puede exponer al medio a potenciales riesgos jurídicos o, en la mayoría de los casos, convertir sus sección de comentarios en un auténtico vertedero de material tóxico. En esta página, el procedimiento que utilizo es una combinación de lista blanca, a la que paso a aquellos comentaristas habituales que han probado un cierto nivel de «saber estar», con una supervisión manual de todos los demás, y una lista negra para aquellos que insultan o incumplen las normas de manera reincidente, pero eso solo es posible con una página relativamente pequeña, con una actividad media de unos veinticuatro comentarios por entrada. Si el número de comentarios se eleva a cientos o miles como ocurre en muchos medios, la supervisión manual se convierte en un coste muy elevado y en una tarea prácticamente imposible de abordar de manera eficiente, y genera un problema importante.

¿Puede un algoritmo de machine learning detectar bien comentarios tóxicos, considerando el elevado nivel de variabilidad que ofrece el lenguaje humano, temas como la ironía cruel, el sarcasmo o la sátira? Aunque los resultados, lógicamente, no sean todavía 100% perfectos, todo apunta a que no solo es posible, sino que además, puede incluso llevar a cabo esa tarea de manera incansable, con un nivel de relatividad menor que el que podríamos encontrar comparando los resultados de un panel de revisores humanos, e incluso clasificando esos comentarios en categorías como ataques a la identidad, insultos, lenguaje soez, amenazas, contenido sexualmente explícito o flirteo. Por otro lado, hablamos de un algoritmo que continúa aprendiendo de sus errores de manera constante a medida que los revisores humanos van añadiendo comentarios moderados con resultado positivo o negativo.

Las implicaciones de algo así son complejas, porque en cierto sentido, estamos comprobando que el mejor policía para una actividad tan humana como la participación en un foro no es un policía humano, sino uno, por así decirlo, robótico: si de verdad quieres poner bajo control un foro descontrolado, no encargues el trabajo a limitadas personas, sino a incansables algoritmos.

El algoritmo está disponible en Github para otros medios que quieran probar a utilizarlo.

This post is also available in English in my Medium page, “Why robots make better moderators than humans«

#001
xaquín - 23 marzo 2019 - 18:53
Buena aclaración sobre esos nuevos censores, que, a diferencia de los romanos, los estamos especializando en actividades totalmente antidemocráticas (inhumanas por tanto).
En su esencia naciente, la censura debía ser una forma de controlar que las libertades de uno no impidieran las libertades de otros. Luego el poder establecido corrompió ese concepto para limitar «legalmente» la libertad de expresión.
Prefiero un algoritmo que se equivoque «sin querer», que un tribunal supremo que se equivoque «a conciencia». Estoy seguro que hasta un trapo blanco de paz, colgado del Palau de la Generalitat, actualmente se considera por parte de muchos españoles un atentado contra algo. Sin quitar, que siempre queda que pueda ser un atentado contra el sentido común, en plena batalla dialécticopenal.
Mi esperanza es que los algoritmos consigan mantener algo parecido a una cordura humana el mayor tiempo posible. Neutralizando el mal efecto de las circnstancias políticoideológicas del momento.
- Francisco José - 23 marzo 2019 - 20:00
  Lo siento Xaquín, me temo que tu enfoque está demasiado ideologizado y no sirve.
  - xaquin - 24 marzo 2019 - 19:45
    Lo de servir es muy aletorio, pues depende del uso que se quiere dar a determinadas apreciaciones.
    La ideología no es más que un conjunto de «decires» no contrastados cientificamente. Por lo que resulta díficil apreciar su valor, en relación a la realidad.
    De los algoritmos poco se puede decir, aparte de soltar «ideas varias» (más o menos fundadas) sobre el tema. Nada que ver con una ideología tipo » los algoritmos tendrán la razón y punto» (en vez de algoritmos se pueden poner diversos ejemplos : hombres, arios, chinos…). Yo simplemente muestro mi desconfianza (científica) en la especie humana y mi deseable confianza en un tipo de algoritmos que la mejoren (simple deseo, con cierta base científica).
    Tampoco es que no tenga algo de esperanza, en que el homo sapiens no acabe como sus diversos parientes evolutivos. Pero…
    - Francisco José - 25 marzo 2019 - 17:43
      No sé qué será de la especie humana en el futuro (estoy bastante negativo últimamente a ese respecto), pero cada vez me convence más la idea de los supercerebros del libro: «Yo, Robot» de Asimov (aunque al final los supercerebros se negaron a gobernar a los humanos al considerar que su labor, de alguna manera, los dañaba; y todos conocemos las tres leyes de la robótica hilvanadas por Asimov).
#005
Javier - 23 marzo 2019 - 21:22
Además del tema de la toxicidad, no sé si para un medio es útil recibir tantos comentarios. Siempre comenta Enrique que valora la interacción que producen sus comentaristas. Entiendo que esto es así por recibir un número manejable de ellos (24 de media, comenta el autor). Hay medios que reciben miles, máxime si es un tema emocional (política, deporte). ¿Es útil para un medio esa cantidad? ¿Puede sacar algo útil de ahí o bien se limita a dejar abierta la puerta de comentar para mantener el tiempo de visita? No tengo opinión clara al respecto
#006
menestro - 23 marzo 2019 - 22:12
No, Enrique. No existe la obligación de publicar bajo licencia «Open Source» como ponía en el post original, ni liberar ningún código
«Except as expressly provided herein, as between you and us, you retain ownership of your
intellectual property rights in and to your application and any subsequent information or
materials provided to us by you.»
Al contrario, como no podía ser de otra manera:
«As part of the assessment of your application and administration of the DNI Innovation Fund, we may provide Applicant PI to our affiliates, service providers or other trusted businesses to process it on our behalf based on our instructions and in compliance with appropriate confidentiality and security measures.»
(Hola, Julio)
–
it looks like we’re shy one horse!
#007
Matt - 23 marzo 2019 - 22:20
Pues si ese algoritmo modera el foro de El País es un completo fracaso porque hay más moderación y menos burradas en un grupo de whatsapp privado de militantes de Falange que en dicho foro.
- Kike - 24 marzo 2019 - 02:36
  Internet no puede seguir siendo un «todo vale». Si fuera de él existen normas, dentro también deben regir. Es parte del proceso de madurez y estabilización que debemos asumir: la utopía de un Internet sin defectos no existe y cuánto antes pongamos coto, más sano será su futuro. Este tipo de soluciones de «prefiltrado», con unas premisas claras, públicas y de consenso, son el único método viable de poner algo de orden en Internet sin riesgos para los derechos de los usuarios. Tanto que, matando dos pájaros de un tiro, debería ser responsabilidad de órganos supranacionales como la Unión Europea o, sí me apuran, la ONU para garantizar la libertad de expresión incluso allí donde está en peligro. Ojalá estas iniciativas calen y pronto se extienda su uso, antes de que sea tarde y se nos rompa el juguete para siempre…
#009
Jaír Amores Laporta - 23 marzo 2019 - 23:42
Buenas! Aquí Jaír, de EfectiVida.
Interesante, muy interesante; tanto el tema de la gestión de comentarios por parte de la IA, como la selección que hace Enrique de la participación.
En mi blog, tengo los comentarios abiertos. También es cierto que no me meto en temas políticos, ni hablo de religión ni de deportes. Solo hablo de temas relacionados con la efectividad, y como eso no le interesa a mucha gente, se limitan por sí solos la cantidad y el perfil de “comentaristas”. Además, tengo poca visibilidad (de momento es simplemente un hobby), y tampoco es que haya muchos comentarios.
Más allá de la evidente ventaja para la tasa de rebote, la UX y otros factores SEO, pienso que es bueno permitir la participación. Además, a veces, los comentarios aportan mucho valor, así como experiencias personales u opiniones diferentes al autor. Todo esto enriquece el contenido, y, al mismo tiempo, permite a los lectores sentirse parte de una comunidad con intereses comunes.
Por supuesto, siempre habrá quien se “pase de la raya”. Pienso que, muchas veces, ignorar es la mejor opción. En otras, habrá que tomar acción para proteger el nivel del blog y al resto de lectores. Por el momento no me ha tocado censurar comentarios… espero que siga así.
Por otro lado, no soy tan optimista como Enrique en cuanto a que la inteligencia artificial llegue a percibir matices como la ironía. Pero probablemente todo sea cuestión de tiempo. Además, pensándolo bien, la inteligencia artificial avanza, mientras que la humana… (mejor no hablar).
Gracias, Enrique! Siempre haces pensar. Tu blog es una fuente inagotable de ideas. Y los comentarios, por cierto, son de un nivel increíble.
Un saludo desde Las Palmas!
#010
Angel - 24 marzo 2019 - 04:48
Que pocos comentarios tiene esta entrada. Incluso, no veo presente a gente que siempre está comentando (siempre tiene algo que decir).
Enrique, acaso haz corrido el algoritmo aquí?
Si la respuesta es si, me alegro, porque pinta bien!
#011
ALAN TURING - 24 marzo 2019 - 05:37
Los comentarios tóxicos no se van a acabar hasta que no se acabe con la impunidad que los propicia y esto pasa necesariamente por terminar con el anonimato absoluto a la hora de usar una red social.
Banear por IP (como se ha venido haciendo hasta ahora) no sirve de nada puesto que existen diversos métodos para ocultar la propia IP (VPNs, Proxys, TOR, etc), así pues para evitar malos comportamientos haría falta dar algún dato personal para poder participar en una red social.
#012
Javier Cuchí - 24 marzo 2019 - 12:22
A mi modo de ver, el problema de los comentarios tóxicos sólo tendría (ojo, que hablo en potencial) una solución: acabar con el anonimato en Internet. Todo el mundo con el DNI en la boca. La verdad es que cuando lee uno los comentarios en ciertos foros, ciertos blogs o ciertas noticias en tal o cual periódico (y entiéndase el cierto como algo cada vez más extendido) dan ganas de propugnarlo. Pero sabemos que no, que eso terminaría con los fakes y con la toxina generalizada que estamos sufriendo, pero también con muchísima aportación inteligente e interesante (en mil formatos distintos) que hace que Internet siga siendo apasionante, por más que ya no nos infunda aquella ilusión, rayana en el icarismo, que algunos tuvimos la suerte de vivir hace un cuarto de siglo.
No confío -en este concreto caso- en la tecnología, porque es como la lucha ancestral entre el hacha y el escudo: todos sabemos quién acaba venciendo. Unas veces por suerte y otras por desgracia.
Disclaimer: por una cuestión de estilo personal y de convicciones, jamás he subido a la Red una sola palabra sin llevar mi firma debajo. Jamás. Lo más parecido a la ocultación de identidad que he hecho -que hago, porque ahí sí es modo de presente- es, tras haberme dado de baja de Twitter (harto ya del estruendo de tantísimo imbécil), darme de alta de nuevo como usuario anónimo total y absolutamente mudo, con candadito para no dejarme seguir por nadie, exclusivamente para seguir a una docena escasa de personas e instituciones que me interesa no perder de vista (y que, obviamente, están alejados de toda imbecilidad).
#013
Jose Miguel - 24 marzo 2019 - 17:06
A Alan Turing y Javier Cuchí. Con la excusa del terrorismo y la criminalidad hemos perdido libertad y privacidad hasta el límite de que te vean en pelotas en un aeropuerto, miles de cámaras sigan tus movimientos y te puedan hasta revisar el móvil (en USA lo pueden hacer). Y todos tragando porque supuestamente se hace para protegernos, cuando en realidad están ampliando el control gubernamental a prácticamente toda la población.
Esos procedimientos son especialmente tolerados por los españoles desde hace mucho tiempo. No han cambiado mucho las cosas desde principios del siglo XIX con el «vivan las caenas» de la Guerra de la Independencia al «jodido pero contento» de la democracia actual.
No. No transijo con la pérdida del derecho al anonimato en la red. Es el último reducto que queda contra el abuso del poder y es imprescindible mantenerlo.
Si tengo un blog, forum, twitter o lo que sea y ciertos indeseables se dedican a amargarme la existencia intentaré por todos los medios legales a mi alcance que dejen de hacerlo. Pero no pediré que por los inevitables hijos de puta que me visitan se sacrifique una de las pocas armas que aún nos quedan contra los abusos del poder y los gobiernos que no son del pueblo. Al final perderíamos todos por unos troles como hemos acabado perdiendo todos por unos criminales.
- Javier Cuchí - 25 marzo 2019 - 08:46
  ¿Tú has leído bien mi comentario? ¿Has leído bien el primer párrafo del mismo? ¿Has leído el último punto y seguido, a modo de conclusión, de ese párrafo?
  Pues vuélvelo a hacer, anda…
#015
Pedro Torres Asdrubal - 25 marzo 2019 - 16:18
Todavía siento asco y vergüenza por como El Pais permitió el abuso de spam en noticias de Siria que pedían la invasión de occidente y asesinato de Bashar.
Millones de comentarios con textos e imágenes que se repetían en perfiles que rotaban.
Si vas a permitir el abuso, mejor no permitas los comentarios, como tantos medios de prestigio.
#016
Víctor Hugo Sánchez - 8 abril 2019 - 20:32
Me resulta inquietante el manejo de este algoritmo con fines de censura, que este tipo de tecnologías abran la puerta a un nuevo dilema: la libertad de expresión.
Si bien, existe una delgada línea entre la corrección política y la objetividad (muchas veces con matices), la aplicación de un algoritmo a niveles de subjetividad tan complejos como los presentes en el lenguaje me genera desconfiaza. Desconfío de quienes están detrás.