Con Google no se discute

IMAGE: OpenAI's DALL·E, via ChatGPT

En plena discusión sobre el origen de los datos empleados para entrenar algoritmos generativos y los acuerdos económicos que permiten que una compañía dedicada al desarrollo de esos algoritmos pueda utilizar los datos generados por una página web, llega Google y da con la perfecta cuadratura del círculo: vincula el uso de los datos con la indexación, de manera que si decides bloquear al bot de inteligencia artificial del gigante de las búsquedas, estarás en la práctica cometiendo un SEOcidio, es decir, impidiendo también la entrada al bot que te indexa, con lo que perderás visibilidad y tráfico. Básicamente, no te encontrará nadie.

El movimiento llega en un momento en el que la gran mayoría de las compañías de desarrollo de algoritmos generativos están optando por llegar a acuerdos más o menos exclusivos con grandes repositorios de datos, sobre todo de aquellos con cierto marchamo de calidad y sometidos a actualización constante. Agencias de prensa, periódicos, páginas participativas y, básicamente, todo aquel que genera datos con cierta regularidad están cerrando sus páginas a los crawlers dedicados a recopilarlos… salvo Google. A Google le llega con mirarte con mala cara, decir eso de «no nos haremos daño, ¿no?» y conminarte a que le dejes utilizar los datos de tu página si no quieres que ésta se hunda en los bajos fondos del buscador, allí donde nadie la va a encontrar.

Google es la mayor fuente de tráfico de muchísimas páginas. Mucho de ese tráfico se corresponde simplemente con usuarios con muy poca cultura internet que confunden la caja de búsqueda con la barra del navegador y teclean directamente en ella, pero aún así, nadie que valore su tráfico se arriesga a entrar en trifulcas con quien tiene la llave de su visibilidad en la web. Según los editores, la herramienta que rastrea los sitios web para producir sus respuestas de inteligencia artificial es la misma que realiza el seguimiento de las páginas web para incluirlas en los resultados de búsqueda, por lo que bloquear la inteligencia artificial obstaculiza la capacidad de ser descubierto de una página.

Resulta curioso que Google haya optado por una estrategia tan enormemente agresiva precisamente en el momento en que se discute su naturaleza de competidor monopolístico, cuando acaba de perder ese primer juicio y se dispone a afrontar otro más. Ese comportamiento de vinculación o apalancamiento de un producto utilizando el éxito de otro es precisamente algo que las autoridades antimonopolio suelen encuadrar como completamente anticompetitivo, básicamente lo que llamaríamos «un caso de libro». Pero sobre todo, es una forma de demostrar a los jueces que ese tipo de comportamientos están en la naturaleza de la compañía, y que los ve como algo completamente normal.

Obviamente, lo que está haciendo Google es obtener un beneficio derivado de su condición de líder absoluto en la búsqueda para intentar cristalizar gracias a ello un liderazgo en el desarrollo de algoritmos generativos. Ya veremos cómo evoluciona este tema, pero por lo de ahora, una cosa está clara: pocos van a arriesgarse a negar al bot de inteligencia artificial de Google el acceso a sus datos, si el precio a pagar por ello es caer en el ostracismo digital.


This article is also available in English in my Medium page, «Google and the nature of the beast«

28 comentarios

  • #001
    Roger - 17 agosto 2024 - 09:38

    Vergonzoso y monopolístico por parte de Google. Cada vez mas, si hay un servicio parecido o equivalente lo uso en vez de el una vez amable Google «dont do evil».

    • Enrique Dans - 17 agosto 2024 - 09:53

      Lo negarán tres veces, como en la biblia. Se defenderán diciendo que no, que eso es una mala interpretación, que en realidad no era así, y todo eso. Ya lo verás…

  • #003
    Angel "el bueno" - 17 agosto 2024 - 09:53

    En el primer párrafo acabas diciendo: » No te encontrará nadie».

    Que maravilla!!! ¿Por qué creés que vivo donde vivo…??? Lo he entendido, es que me parece genial saber la forma en la que nadie me pueda encontrar…

    • Luis - 18 agosto 2024 - 21:43

      ¡¡Exacto!! que sensación de libertad, por diossss

  • #005
    Gorki - 17 agosto 2024 - 10:21

    ¿Que pasaria si Google decidiera cobrar una pequeña cantidad a las empresas por ser indexadas?, Si ellas se benefician económicamente por estar indexadas es razonable que una parte de ese beneficio se lo traspasen al indexador.

    Yo creo que es el mismo principio que utilizan quienes pretenden cobrar por sus datos a los entrenadores de MLL.

    A mi me parece razonable que Google diga , si no quieres que utilice tus datos, no puedo indexarte.

    • Enrique Dans - 17 agosto 2024 - 11:35

      A ver, Gorki… como creo que sabes, yo sería partidario de hacer «carta en la mesa, pesa», es decir, si subiste algo a internet, debe poder ser utilizado por quien quiera para lo que quiera, sea texto, música, números o lo que sea, y si con esos datos se adiestran inteligencias artificiales mejores, pues mejor para todos. Pero ese ideal me temo que está muy lejos de funcionar en la sociedad actual que tenemos, con los lobos del copyright campando a sus anchas y con demasiados egoístas exigiendo «lo suyo», así que habrá que reconocer que una cosa es usar tus datos para indexarlos y otra, muy diferente, es usar tus datos para entrenar una inteligencia artificial, tarea que no tiene relación alguna con la indexación. Y que vincular las dos es una forma de obligar, basándose en un poder monopolístico, y haciendo uso de una ventaja que otros no pueden obtener. Por tanto, comportamiento anticompetitivo donde los haya…

      • Gorki - 17 agosto 2024 - 12:44

        Lo que he preguntado si seria razonable que Google dijera ,»Te indexo si me pagas». Pues si los periódicos se benefician del indexado, es lógico que parte del beneficio se lo pasen al indexador.

        Bien, si no pagan, lo menos que pueden hacer es dejar utilizar sus datos para que con ellos se beneficie Google.

      • Javier M. - 18 agosto 2024 - 19:28

        No comparto tu razonamiento ya que te contradices. Por un lado dices que al subir información a internet debe poder ser utilizado «por quien quiera , para lo que quiera». Entonces porqué Google (o cualquier otro) no puede usar esos datos para lo que quiera?

  • #009
    Xaquín - 17 agosto 2024 - 13:16

    El mercado libre.. cuánto nos gusta disfrutar del money turístico, aunque sea masivo y de la teta de papá estado, pero luego queremos la ley de la oferta y la demanda desenfrenada… y aunque se base en un tráfico inhumano constante… sea el que sea… o, ¿acaso los datos merecen más protección, que las crías humanas que se mueren de hambre y fósforo ardiendo en Gaza?… o en Cisjordania, aunque sean bombas más «caseras»…

    • Gorki - 17 agosto 2024 - 13:44

      Se te han olvidado las de Ucrania,… ¿Memoria selectiva?

      • Dedo-en-la-llaga - 18 agosto 2024 - 00:56

        ¿Te refieres a las ucranianas en territorio ruso?

        • Alqvimista - 18 agosto 2024 - 09:30

          Se refiere a las víctimas ucranianas en territorio ucraniano invadido por los rusos. Tan víctimas como cualquier otra y merecedoras del mismo reconocimiento.

        • Gorki - 18 agosto 2024 - 13:28

          Tienes toda la razón, se le han olvidado los niños rusos y los niños judíos asesinados por Hamas. Así como todos los niños europeos, (uno español en Toledo), asesinados por la Yihad islámica.

          • Dedo-en-la-llaga - 19 agosto 2024 - 00:05

            Pero los niños de los que os han dicho que eran siempre los malos, de esos, si tal ya otro día que ahora se os hace tarde…

    • Marcos - 18 agosto 2024 - 00:58

      Totalmente de acuerdo.

      Hay que ser bastante justos y honestos, pero me da la sensación de que se tiende a hacerse trampas al solitario.

      Un ejemplo que me gusta utilizar es el del cine. Cuando las productoras españolas tienden a a decir aquello de “es que no se puede competir con el mercado norteamericano y su producto”. Y luego siempre acabas descubriendo que hay películas de bajo presupuesto que hacen carrera durante la temporada y que están ajenas a presupuestos vertiginosos y son alcanzables para la industria española.

      En este caso es similar.

      Si se quiere un mercado liberal, lo que no se puede y tiende a suceder (se me ocurren ejemplos desde mi muy limitado conocimiento de este tema) es como dices, pedir la paga a papá estado, cuando vienen mal dadas.

      Estado liberal y capitalista sí, para comprar. Que así, me viene perfecto ahorrarme los dineros en la ropa de los críos en el Primark, ahora que Septiembre asoma la cabeza.
      Pero ey!!! Que los fondos buitre hacen negocio con las viviendas en este país.

      Habría que saber si para el tópico de trabajador medio de una fábrica (por decir fábrica…) en Bangladesh, no piensa si los ciudadanos europeos somos un poco hijos de puta. Aunque no lo creo…

      Alguien me contó una vez una historia de un documental sobre el turismo sexual en así, con niños.
      Después de seguir a un turista, quedar con un crío de no más de 10 años y pasar un rato con él en una habitación de hotel,
      le preguntaron al crío acerca de lo sucedido y se habría que denunciar. El crío decía que no, con toda “su inocencia” porque tenía que llevar dinero a casa.
      Así que supongo que los trabajadores explotados dirían que menos mal que los explotamos, comprando la ropa que ellos fabrican por 2 dólares al mes.

      En el caso de Google, supongo que es exactamente lo mismo y nadie, que no fuera un ente regulador…, nadie que no estuviera dentro del sistema realmente, va a querer que la rueda pare en pos de mantener un sistema que genera beneficios a todas las partes.

      ¿Equitativo y justo? Hum… me gustaría saber qué piensan de vacaciones retribuidas los que realizan las prendas de Shein, Primark, etc… .

      Habría que ser honestos, como dije al principio y no tener un discurso diferente para cada contexto en el que nos encontramos. Pero eso es mucho menos cómodo.

  • #016
    Javier - 17 agosto 2024 - 13:55

    Un perversa y retorcida variación del «o pagas o te espío» del psicópata infame de Mark Zuckerborg, pero esta vez a cuenta de la empresa del ya desaparecido lema Don’t be evil y que luego cambió a Do the right thing (WTF!) en su código de conducta corporativo.

    Los mismos que en su momento se quejaron de haber descubierto que Open AI entrenó a Chat GPT4 con un millón de horas de video de YouTube.

    Sí por suerte, todo muy normal como vemos.

  • #017
    Buzzword - 17 agosto 2024 - 14:52

    Bienvenidos todo al mundo real del capitalismo y de abusar de tu posición. Llevan años haciendo lo mismo Microsoft, Apple, Amazon, Meta y ahora nos caemos del guindo, y el tantas veces multado Google.

    ¿el indexado es un beneficio para un site? Estoy con Gorki…

    Por otro lado dice Enrique

    «Se defenderán diciendo que no, que eso es una mala interpretación, que en realidad no era así, y todo eso»

    Es decir que no hay pruebas, es todo un clickbait de esos buleros llamados Bloomberg, o tenemos las mismas pruebas que con TikTok, o sea ninguna…

  • #018
    Gorki - 17 agosto 2024 - 17:31

    Me temo que los directivos de la prensa, con su «hábil dominio» del mundo digital, han despertado el dragón que estaba dormido en su cueva.

    Ya metieron la pata con Google Works, y ahora pueden meterla en el buscador. ¿Cómo demuestras que sales en la tercera página de búsquedas, porque Google te tiene manía, si no cedes los datos? .

    • Marcos - 18 agosto 2024 - 01:11

      Confío en que algún día se genere y se cree una solución que yo no atisbo a concebir. Es como una fiesta de adolescentes norteamericanos de película, donde hay que estar porque es lo que toca y hay que ser guay. Si no, no existes para nadie.

      Esta extorsión, debería de conseguir un rival, un movimiento en el que en un momento dado, se genere una alternativa más sana.
      Pero como decía en otra respuesta ¿quien da el primer paso? Todos se necesitan mutuamente como bien señalas y me no parece que al final es como la situación global actual, donde los más fuertes están jugando con cartas bajo la mesa sin que aparentemente se llegue a las manos. Pero hay muchos cuellos cubiertos por esas manos, vaya.

      Ser valiente, es perder posible y literalmente miles de millones de dólares y tu propia existencia (como bien nuevamente apuntabas), pero es algo que yo llevo diciendo desde hace ya décadas.

      El problema de los medios de comunicación ha sido que eso que llaman ahora fake News, han sido ellos mismos quienes lo han provocado. Si no hubieran tergiversado, manipulado y mentido deliberadamente, ahora, quizás y solo quizás serían un valuarte de la verdad, de la confianza y el valor que quizás algún día tuvieron. Pero líneas editoriales que cojean de un pie u otro e inclinaciones y favoritismos han generado que su reputación valga nada en absoluto, en un universo de versiones y opiniones; tantas como usuarios en cualquier red social.

      Víctimas de su propia naturaleza, corrompiendo lo que en otro tiempo era símbolo de honor, como es el periodismo.

      Ninguna pena, sinceramente. A parte de eso y como apuntaba un “no crítico” de cine de alto calibre hará ¿2 años? Los medios españoles siguen funcionando a “su manera” cuando la actualidad se marca con al menos 8 horas de retraso; las que marca la costa este. De esa manera el D23 de Disney en España en medios de lo más potentes del nicho iban pero que muy tarde con las noticias la semana pasada, cuando tienes a gente que lo hace “gratis” (esas interacciones en Twitter no vienen mal ¿eh?) sin trabajar en ningún medio y lo hace en directo.

      Lo dicho, ninguna pena. Los medios españoles al menos.

  • #020
    menestro - 17 agosto 2024 - 18:55

    Cuando hay tanto ruido, es imposible hacer análisis serios de temas como este en un blog. Es triste, pero es la realidad, y está sucediendo lo mismo en sitios sociales, como menéame y otros, y, acaba por prevalecer una percepción distorsionada de las tecnologías y su realidad social.

    Cristina Fallarás tiene un argumento muy interesante y valido, ella dice, que últimamente, las redes sociales se utilizan para invalidar los argumentos y los discursos valiosos, mediante el ruido de fondo mediático y la adulteración del mensaje, para restarle importancia a los debates reales.

    A propósito del #Cuéntalo

    Usa la hipotesis de que Twitter ha pasado de ser «un lugar de construcción de memorias colectivas» a «solamente es el lugar de la construcción de la memoria colectiva del odio.»

    Un apilamiento de escenarios y recreación de personajes e identidades, que apenas existen en la realidad.

    Es lo que hemos podido ver con Elon Musk cuando entrevista a Trump, dándole altavoz a un émulo político de Alex Jones.

    Una percepción consensuada de una fantasía, que transforma las redes sociales en un Espejo Carrolliano.

    Un Peio H. Riaño hablando de la cultura de la violación en el museo del Prado.

    Un elixir de aumento y distorsión de la realidad.

    Ah, sí.

    Gooogle solo puede usar los contenidos con el propósito de la indexación y busqueda dentro de esos mismos contenidos; ya usaba algoritmos de Machine learning con ese propósito, no para producir un modelo de lenguaje, que no esté destinado a especificamente a esa aplicación con Gemini, Igual que con Alexa, o cualquier otro asistente, igual que sucede con los snippets o tarjetas de información de las web que indexa, IMDB, Wikipedia, etc.

    No puede utilizar los contenidos para crear un LLM de propósito diferente.

    • Marcos - 18 agosto 2024 - 01:18

      Lo he comentado en respuesta a otros usuarios. El no problema es creer que las redes sociales invalidan los argumentos y discursos valiosos, desde el momento en que ella en medios de comunicación menos “modernos” que plataformas de microblogging, hace acto de discursos absolutamente partidarios, descalificativos hacia otras partes y peyorativos, a la par que victimistas y cínicos.

      Si fuéramos menos sectarios, quizás nuestro argumento tendría muchísimo más fundamento. Me estaré columpiando pero hay gente a la que se le ha echado de su propio periódico (o que fundó) en cierta manera, debido al giro identitario que se está alcanzando en algunos sectores.

      Alguien que únicamente entiende de de “o conmigo o contra mi” como es la señora a la que citas, disculpa, pero me parece que tiene el mismo valor que Pilar Rahola. Cada cual que evalúe esa comparación.

  • #022
    Benji - 18 agosto 2024 - 08:07

    Me parece horroroso lo que google hace. Al final tendré que pasarme a bing aunque me haga poca gracia :-(

  • #023
    Michel Henric-Coll - 18 agosto 2024 - 10:04

    Lo que me preocupa, es que todas las compañías de desarrollo de IA generativa solo se afanan en acceder a la mayor cantidad posible de datos para «entrenar» sus retoños, por lo que cualquier fuente y contenido vale, mientras haya muchos datos.

    Y precisamente es esta enormidad de datos que impide realizar cualquier una selección cualitativa de contenido.

    Lo comparo con escuelas tan necesitadas de maestros para «entrenar» a sus alumnos que contratarían como docentes a cualquiera que sepa hablar, cualesquiera que sean sus opiniones, cultura, procedencia, educación, entorno de vida (incluidas las cárceles, porque allí hay mucha gente disponible).

    Garbage in, garbage out, Creo que sigo siendo actual la expresión.

  • #024
    Gustavo - 18 agosto 2024 - 11:25

    Creo que mas allá de las quejas que estamos formulando, deberíamos esprimir nuestro cerebro y analizar como modificar el protocolo DNS para que no requiera siempre el dominio completo de busqueda.
    De esta manera, el servidor DNS, ante un dominio no completo en el pedido de resolución devolveria las posibles coincidencias.
    Ejemplo:
    Si alguien quiere ir a la web de El País, solo pondria en el navegador «elpais» y el DNS asumiria primero que delante va «www.» y luego le listaria en un simple formato HTML básico las coincidencias.
    www.elpais.com
    www.elpais.es
    www.elpais.com.uy
    www.elpaisnacional.com (me lo invento para el ejemplo).

    No es sencillo, pero si lo lograramos implementar como una nueva funcionalidad dentro de los Domain Name Server, acabariamos con Google.

    Suena loco, lo se. Pero no deja de ser una buena idea a pesar de los inconvenientes técnicos.

    • Lua - 18 agosto 2024 - 13:37

      No sé que tiene que ver un DNS con Google (de lo que va el articulo), espero que lo aclares más…

      Mientras, estaría bien que supieras que es un DNS, para que sirve y como funciona, que por tus explicaciones… me da que no.

      DNS

      No te puedes cargar alegremente la jerarquia de dominios.

      Por otro lado, lo que dices pretender en el ejemplo, ya lo hacen (casi) todos los navegadores…

      • Gustavo - 18 agosto 2024 - 19:23

        Un DNS resuelve/traduce el nombre de un dominio escrito en forma completa y correcta.
        El comando nslookup te lo muestra en funcionamiento.
        Lo que he escrito, tiene que ver con el articulo.

        Si fuese posible hacer consultas a un DNS (con el comando nslookup, por ejemplo) con dominios incompletos y que nos liste todas las variantes que existen en el DNS (utilizando *, por ejemplo) cualquier usuario (o extensión de navegador) se cargaría buena parte de las busquedas en Google.

        El autocompletado de los navegadores webs no es exactamente lo mismo, porque depende de que el navegador ya haya visitado ese sitio y lo tengo en caché, o que ese sitio haya pagado para estar en esa caché.

        • Lua - 18 agosto 2024 - 20:33

          Te lo pongo más fácil: ineficiente.

          Si un servidor, primero te tiene que servir todas las posibles concordancias, y después de que tu elijas la correcta, te tiene que servir su IP, estas duplicando pasos… de forma ineficiente.

          Cada vez que alguien hace propuestas sobre cambios en los protocolos, a los admins de IPS (grandes y pequeños) se les/nos pone el ojete como si lo hubieran tenido en hielo toda la noche mientras rezan, “virgencita que me quede como estoy”.

          No. No tiene nada que ver con el artículo, que no menciona los DNS para nada, aunque Google tenga servidores de DNS. Si le quieres joder por ahí, tan simple como cambiar tus DNS por 1.1.1.1, uyyyy que daño le vamos a hacer…

          Cuando tu haces una búsqueda en Google, te presenta una lista de resultados.

          De ti depende hacer click en uno u otro, y entonces, Y SOLO ENTONCES, se resuelve la dirección, vía DNS. Nada que ver con las búsquedas.

          Quieres hacerle pupa a Google? No lo uses. Bing, Yandex, DuckDuck, Ask, Quora, Ecosia, etc.

          Lo demás, perdona que lo diga así, son pamplinas.

          • Gustavo - 24 agosto 2024 - 00:24

            Suerte, Genio !!!

Dejar un Comentario

Los comentarios están cerrados