El problema del link rot se va agravando

IMAGE: OpenAI's DALL·E, via ChatGPT

Un estudio de Pew Research Center demuestra que el problema del link rot, la desaparición de contenido en la red que da lugar a enlaces que dejan de funcionar, es un verdadero problema en la web, que amenaza gravemente la gravedad de la información: el 38% de las páginas web que existían en el año 2013 ya no están accesibles tan solo diez años después.

Como académico que aspira no solo a escribir artículos, sino también a documentarlos de la forma más fehaciente posible mediante un trabajo de curación de contenido que en muchas ocasiones me lleva más tiempo que la propia escritura, y en el que baso buena parte de mi actividad académica, el problema me preocupa especialmente, y he escrito sobre ello en ocasiones anteriores.

Revisar artículos antiguos en mi página y encontrarse enlaces rotos es, desgraciadamente, muy habitual. A lo largo de más de veintiún años escribiendo, tener una página sin enlaces rotos es una tarea imposible. Otras páginas que otorgan gran importancia a la preservación de la información, como Wikipedia, han adoptado soluciones para ello: añaden a muchos enlaces otra versión que enlaza a la misma página archivada en la Wayback Machine del Internet Archive, una tarea que implica crear primero la copia a través de un formulario para asegurarse que, en efecto, el artículo está disponible ahí. El Internet Archive es un proyecto sin ánimo de lucro que contiene ya centenares de miles de millones de copias de páginas, una verdadera maravilla a efectos documentales.

Ese fue el método que utilicé para las referencias a pie de página de mis dos últimos libros, intentando evitar que un objeto de papel que puede permanecer años en una estantería no vaya perdiendo la integridad de su información del mismo modo que ocurre en la web. En mi página, esa tarea es imposible, porque muchas de las páginas que se han perdido ya no están disponibles ni siquiera en el Internet Archive, pero además, resulta enormemente intensa, a pesar de que el proceso que la organización sin ánimo de lucro ha diseñado para paliar ese problema es verdaderamente ágil. Pero si habitualmente pones una media de cinco o seis enlaces en cada artículo, darlos de alta y vincularlos al Internet Archive introduce un trabajo adicional que no soy capaz de asumir (ya me cuesta, de hecho, el compartir en redes sociales cada vez que termino un artículo, un trabajo odiosamente mecánico y habitualmente lleno de incidencias absurdas que dificultan su automatización).

Cuando se trata de mis artículos en otros medios, sí suelo hacerlo ofreciendo un enlace a la versión del artículo en pdf que almaceno yo mismo, en parte porque ya me ha ocurrido perder mis propias referencias cuando una publicación desaparece, y en parte también para evitar el problema de los muros de pago que impiden el acceso a los mismos. De hecho, la presencia cada vez más habitual de muros de pago por el cambio de estrategia de muchos medios de información se ha convertido en un problema que intensifica el link rot, al hacer inaccesibles enlaces que, en su momento, eran de libre acceso.

En el futuro, no he perdido la esperanza de que este tipo de problemas se conviertan en parte del pasado, mediante soluciones automatizadas que permitan almacenar de manera sencilla aquellas páginas que hayan recibido enlaces. Mientras tanto, habrá que aceptar que el valor histórico de lo que uno escribe a lo largo de los años no es tan elevado, porque muchas de sus referencias simplemente desaparecen. Y la verdad, será por mi condición de académico ordenado y metódico… pero me fastidia bastante que eso sea así.


This article is also available in English on my Medium page, «Something is rotten in the state of our links«

13 comentarios

  • #001
    Gorki - 20 mayo 2024 - 12:05

    No es problema que me angustie, pero si que me entristece, el ver que en mi blog, donde trataba temas intemporales, los post han perdido los enlaces y muchas de las ilustraciones

  • #002
    Pablo Martínez-Almeida - 20 mayo 2024 - 12:10

    Yo también confío en que esta nueva etapa de florecimiento de las herramientas de inteligencia artificial alumbre soluciones al problema. No se trata solo de enlaces rotos, sino también del simple mantenimiento de los contenidos de infinidad de páginas web, tanto en lo referente a la actualización de los mismos como a la revisión y corrección de errores.

  • #003
    Dedo-en-la-llaga - 20 mayo 2024 - 13:02

    En un mundo que se quiere sin pérdidas, hay pérdidas… Es lo que yo llamo «el alzheimer de la civilización».

    Pocas cosas salvaría en materia de soportes analógicos (los libros sí, pero no por nada sentimental, por el papel que me parece un invento muy versátil), no obstante, cualquier cosa que dependa de la «luz» (y no sólo, por supuesto), para estar activo, es de una debilidad suprema.

    Pero esto ya lo adelantó hace más de 40 años en una película suprema George Miller, «Mad Max-Más allá de la Cúpula del Trueno»: la larga escena de los niños de la tribu utilizando todo el material analógico rescatado de la catástrofe mundial, para escenificar su historia (y su profecía), es antológica. Obra maestra se mire por donde se mire. Pero también ya un aviso en ¡¡¡1981!!!

    Saludos

  • #004
    menestro - 20 mayo 2024 - 13:14

    Hace un tiempo, tuve una conversación – con café – con uno de los padres del venture capital en España. (Yo a veces me manifiesto en el mundo real)

    En ella, ya le mencioné que en realidad hace ya mucho tiempo que la información nunca desaparece de internet.

    Por ejemplo, los CDN y los nuevos sistemas de almacenaje desestructurado hacen virtualmente eterna la información que viertes en las redes sociales, aunque la borres o la pongas privada, y es perfectamente accesible mucho tiempo después.

    Por supuesto, hay dos internet, la de los usuarios y la de la sala de calderas.

    Los enlaces pertenecen la época del web 1.0 y son bastante ineficientes para retener lo que constituyo la World Wide Web original. Así que, se está generando un nuevo tipo de red de contenidos.

    Eso, de la tecnología actual, que apenas se menciona en este blog, y que poco tiene que ver con ChatGPT. (El blog y Enrique Dans pertenecen al mundo 2.0.)

    A mí No vale el pescado de la semana pasada. Me toca ir con alguna década por delante del estado del arte para ganarme la vida.

    La gente necesita crear un un escenario familiar en el que tienen el control de la situación, una pequeña mentira de lo que es la realidad y su relación con ella, una escaleta, con la que poder relacionarse y estructurar una verdad asumible.

    Links, relatos sociales, una verdad amistosa.

    «You Can’t Handle the Truth»

    La época de la televisión fue la era dorada de los relatores, nos ofrecían un relato unidireccional y paternalista del mundo.,

    Básicamente, se puede reconstruir absolutamente todo lo que ha existido en internet, la verdad, no el relato.

    Y el trabajo es, construir esa verdad. hacerla visible, palpable y establecer un relato fidedigno de nuestra realidad social en este nuevo entorno. Una verdad forense, como una Clepsidra.

    Crear los cimientos de esa «alucinación consensuada» que es nuestro mundo, nuestro pequeño espacio reservado de la verdad, que diría la Wolf.

    Crítica literaria

    «Chucherías en París. Cómo conseguir que tu perro te mire con amor.»

    Elargi votre cercle social et l’amitié!

    lawyers up!

    • Dedo-en-la-llaga - 20 mayo 2024 - 15:19

      «(…) la información nunca desaparece de internet», entre nunca desaparece y no poder tener acceso a ella, pregunta mientras tanto por las pesadillas que tienen los bibliotecarios con lo digital:
      https://www.researchgate.net/publication/28157447_Bibliotecas_digitales_situacion_actual_y_problemas

      Saludos

  • #006
    Xaquín - 20 mayo 2024 - 16:32

    La Larousse era la parienta pobre de la BE, no tenía enlaces digitales (ninguna de las dos) y precisaba una buena dosis de fe en su autores (y fuentes).

    La Wiki sí tiene enlaces, por mucho que se rompan… con gran facilidad de comprobación. Y permite un trabajo de reelaboración constante, que no tenían las de papel.

    Sigo pensando que el problema no es la tecnología, sino la interacción de la IH con ella. Ya mucho antes de que existiera ni la posibilidad de interactuar con una IA… para guiarla. Por ejemplo, mi Víctor, que estuvo parado en la mesa del estudio casi dos añitos, no tenía jodida responsabilidad en que yo fuera tan tan tan lento (para desesperación lógica de mi hijo)… y sin embargo no perdí el tren!!!

    Aún no había algoritmos, pero se tenía que interactuar con un SO prácticamente medieval.

  • #007
    Morath - 20 mayo 2024 - 18:27

    Imagino que esa problemática se ve incrementada en cierta medida (no me hago idea del orden de magnitud) por dos situaciones muy habituales en los que escriben sin prestar un mínimo de cuidado en el tema enlaces:
    1.- Enlaces a recursos que tienen abiertas sin haberles quitado la «información de trazabilidad», sea publicitario o no, que puede hacer que dicho enlace deje de servir cuando. Me refiero a la típica URL con el «&lo_que_sea» que se añade para la analítica.
    2.- Enlaces a recursos que requieren estar autenticado para leerlos, sea tras muros de pago o no. P. ej. los que se ponen a contenido de redes sociales.
    3.- Enlaces afiliados a productos en venta.
    Aunque estos problemas representen un número significativamente menor, tienen un impacto importante porque pueden estar en contenidos actuales. De hecho, muchas veces se dan en sitios con información prácticamente «de hoy» (p. ej. me lo encuentro mucho en blogs de viajes, análisis de productos, etc.).

  • #008
    Lua - 20 mayo 2024 - 20:28

    Muchas pajas mentales con los enlaces, y es mucho mas simple de lo que parece…

    Al igual que ocurrió con el estallido de las puntocom, hubo uno similar con multitud de blogs y webs), de todo tipo, de todo tema…

    Con los años y por las mas diversas razones (que algunos estaban alojados en hosters gratuitos y de repente tenían que pagar, que los autores tienen un hijo y ya no pueden dedicar tiempo, etc), muchos de esos blogs, pierden su popularidad y mantenerlos cuesta un dinerillo (y tiempo). Así que se abandonan. Como he dicho, razones hay muchas. En estas líneas están Javier Cuchi y Gorki, que también dejaron los suyos de lado (solo que ellos al menos si mantienen el blog en línea).

    Al respecto de otro tipo de publicaciones, suele ocurrir lo mismo. Una empresa decide darle una remodelación a su web, y todo lo antiguo, se pierde porque no han tenido cuidado de mantener la versión “old”. Un foro deja de existir, y todos los enlaces que apuntaban a artículos, temas o comentarios pasan a “404 Not Found”.

    No veo porque echarse las manos a la cabeza. Por muy interesante que sea lo que diga el sujeto/asociación/empresa “A”… si decide dejar de mantenerlo, es cosa suya.

    Que existan archive y Wayback, pues estupendo. Yo incluso iría a por algo mas “supra”, que hiciera un backup diario de la web, pero claro, como no lo pago yo, me permito una idiotez así.

    Eso sí, un comentario leído por ahí: ”Mucho sacar pecho con Internet Archive, pero las editoriales les están acosando desde hace un año y nadie mueve un dedo para evitarlo. Un día cerrarán, media historia de internet se irá a tomar por culo, y nos llevaremos las manos a la cabeza luego.”

    Igual una solucion podria ser, llegar a acuerdos con el «enlazado» para poder reproducir el articulo en nuestro blog… (a pagar a pagar….)

    Mas divertida es la ultima jugada de Elon, que se carga el dominio twitter.com y ahora pasa a ser x.com… a tomar viento toda referencia porque no está haciendo redirecciones (o al menos, no lo contempla).

  • #009
    MGG - 21 mayo 2024 - 09:17

    ¿Crees que este problema podría solventarse con nuevas tecnologías como Blockchain? No soy experto en esta nueva tecnología pero, por concepto, una red descentralizada y con múltiples nodos respaldados puede ofrecer una base tecnológica importante para solucionar este problema. ¿qué opinas?

  • #010
    Nicole Dyver - 21 mayo 2024 - 13:29

    Una sociedad sin historia, memoria histórica, siempre es más fácil de manipular. El problema de los enlaces rotos, o los borrados intencionados de base de datos en medios públicos (por ejemplo) debería ser penalizado.

  • #011
    Jose Alberto - 22 mayo 2024 - 13:19

    Lo digital siempre va a ser más efímero que el papel… y está bien.

  • #012
    Antonio Gregorio Montes - 22 mayo 2024 - 22:37

    Si encuentras una solución económica y eficaz en tiempo, avisa…

  • #013
    Juan Luis - 24 mayo 2024 - 18:43

    Para mí los enlaces siempre me han parecido, como las notas al pie de página en los libros, algo que puede complementar el artículo pero que no tiene tanta relevancia, lo central del contenido debería ser autoexplicativo. Creo que el futuro de la WEB tiene que ver con la curaduría de contenido, ya se ha solucionado gran parte del problema de almacenamiento y respaldo de la web, las deficiencias siguen en la clasificación, las búsquedas y el acceso. Un ejemplo, el otro día necesitaba información específica de un libro que había leído, recordaba el tema pero no el autor ni el título del libro. Me gusta la aproximación que tienen ciertas plataformas que te muestran tu activdad anterior, hace x años o el último año, los RECAP. Creo que es más útil dedicar tiempo a generar buenas utilidades de repetición espaciada, por ejemplo que naveguen por tu base de conocimiento y sugieran contenido similar, que intentar mantener la consistencia en materia de citas o links. Me gusta la idea que alguien plantea en los comentarios de un meta-respaldo, un gran blob, json, arcvhivo markdown con descriptores que pudieran regenarar contenido, quizás una especie de IA generativa que cree la WEB a partir de una semilla.

Dejar un Comentario

Los comentarios están cerrados