Una de las cosas que más me sorprenden en los tiempos que corren es la completa falta de inteligencia de determinadas cosas. Una de las más llamativas se refiere a Google. ¿Cómo es posible que con la cantidad de ingenieros brillantes que fichan, seleccionados mediante pruebas increíbles que demuestran habilidades rayanas en lo sobrenatural, sigan teniendo un producto tan rematadamente idiota? El adjetivo no pretende ni mucho menos insultar al más popular de los motores de búsqueda, sino utilizarlo como contraposición a «inteligente», según reza el diccionario de la RAE. Le tengo mucho cariño a Google, me sería muy difícil trabajar sin él, estoy de acuerdo en que Google representó un gran avance en el concepto de motor de búsqueda, y que desarrolló un algoritmo que intenta representar de manera bastante adecuada el concepto de relevancia en un porcentaje elevado de ocasiones. Desarrollar el concepto de que la página más enlazada es la más relevante fue, sin duda, una buena idea. Sin embargo, la falta de evolución de dicho concepto desde que fue articulado por Larry y Sergey en Enero de 1996 resulta simplemente sorprendente. Hoy por hoy, Google sigue siendo un buscador que, por poner algunos ejemplos,
- No sabe analizar el contenido de una página más allá de encontrar en él unas cuantas palabritas. De ahí que las adwords, en muchas ocasiones, resulten simplemente ridículas y nada relevantes, o incluso funcionen al revés. Que se lo pregunten a Nacho, que de repente, por criticar a un ex-presidente, se encontró haciéndole publicidad como conferenciante. Don Google… digo yo que podría fijarse, además de en las palabras que relaciona con su base de datos de anuncios, en unas cuantas más de las que aparecen cerca de las mismas, ¿no? Construir una base de datos de adjetivos comúnmente utilizados no debe llevar tanto trabajo…
- No puede personalizar más que de forma sumamente burda los resultados más relevantes para una persona, a pesar de la ingente cantidad de información de que dispone acerca de la misma. Pero oiga, Don Google… ¿es que no me ve que suelo buscar siempre cosas relacionadas con los mismos temas? ¡¡Pero si sabe usted hasta lo que tengo en mi disco duro!! De verdad, quédese con mi privacidad,entérese hasta de con quién tengo mis sueños más prohibidos, pero déme resultados relevantes para mí y diferentes de los que le daría a alguien que no tenga nada que ver conmigo.
- Es incapaz de darse cuenta que una página que tiene varias direcciones debería tener el mismo PageRank en todas ellas, y los enlaces entrantes y salientes deberían ser considerados en su conjunto…Aquí la idiotez, sobre la que ya hemos comentado en otras ocasiones, llega al punto de considerar la versión con y sin «www» como páginas distintas. Por favor, Don Google… ¿no será igual de relevante mi página con y sin «www»? ¿O es que acaso le viene bien contarla tres veces?
Lo sé. Es rizar el rizo, y tal vez ser un poco borde por mi parte. Tal vez sean esas cosas del querer. Es, como decía Miguel el otro día en clase, como los suegros: primero te piden que te cases, cuando ya te estás casando, que tengas un niño, y cuando ya estás teniéndolo, que para cuándo la parejita… A Google se le pide más por el hecho de ser Google. Tal vez le pido demasiado. Y no hablo aquí de sus competidores, que intuyo demasiado ocupados intentando seguir los pasos de Google como para preocuparse de estas minucias de la inteligencia artificial…
Tengo claro que el motor de búsqueda del futuro será aquel que invierta en algoritmos de inteligencia artificial hoy para poder darnos mañana búsquedas más adaptadas a nosotros y a lo que buscamos, búsquedas que nos entiendan, mucho más relevantes, que nos hagan perder menos tiempo moviéndonos entre páginas y páginas de resultados. Pero por el momento, o muy calladito se lo tienen, o no veo nada que indique que ninguno de los motores de búsqueda conocidos esté haciendo algo relacionado. ¿Será, como comentaba Manuel Toharia también en clase el otro día, que nos da miedo la evolución, que las máquinas aprendan? La inteligencia artificial tiene ya un nivel de desarrollo suficiente como para que algunos de sus principios se empiecen a aplicar. ¿Hace falta que alguien empiece a programarlo en algún garaje, o alguno de los competidores ya consolidados va a hacer algo al respecto?
dominio.com y www.dominio.com pueden ser páginas completamente distintas (aunque generalmente es la misma). Es lógico que no tengan el mismo PageRank.
Google sige estando muy bien. Gmail es genial, pero se ve que le estan sacando demasiada viruta a una sola forma de hacer las cosas.
Google Desktop, por ejemplo, ya no me parece util. No puedes acceder al path del archivo (que a veces aparece cortado) ni, como comentas, filtrar tu búsqueda en funcion de parametros un poco más concretos. Sospecho que es un problema del algoritmo y su velocidad, no debe ser facilmente modificable. Con el crecimiento exponencial que tiene la informacion disponible en internet creo que ahora les preocupará poder seguir tan rápidos como siempre (Sospecho que ya hecen trampa y «podan» más que antes).
Si cumplen el plan tan cojonudo ese de indexar bibliotecas enteras me voy a poner las botas, pero como no empiecen a dividir en grupos la totalidad de fuentes en las que buscar… les va a reventar el algoritmo en la cara.
Saber si poniendo o no «www» se llega al mismo sitio es en muchos casos tan sencillo como hacer un ping antes. Por ejemplo, haciendo ping a despacho101.com y a www.despacho101.com se obtienen IPs distintas, lo cual no ocurre por ejemplo haciendo ping a enriquedans.com y a www.enriquedans.com (se obtiene la misma IP). En fin, digo lo del ping para que quede medio claro, lo que quiero decir es que me parece increíble que Google no tenga en cuenta la dirección IP en su «magnífico» algoritmo.
Otro ejemplo parecido es el tema de la página por defecto. Por ejemplo, http://www.emugle.com/index.php tiene menos pagerank que http://www.emugle.com/ , cuando evidentemente son la misma página. No creo que sea tan complicado hacer comprobaciones de este tipo.
Inteligencia artificial? Sí, pero que arreglen primero lo facilito…
Siento comunicara a Serlio, que la IP no tiene por que ser distinta, para que las paginas sean distintas, al igual que es posible que dos paginas tengan la misma IP y tengan dominios distintos.
A eso voy… ¿no puede un mínimo análisis sintático o de frecuencias de palabras en las páginas en discordia revelar indicios de que son en realidad las mismas? Frecuencias de actualización coincidentes, entornos de vínculos similares… hay mil indicaciones que ya no mediante inteligencia, sino incluso un idiota artificial podría usar para identificar las páginas como idénticas. Pero no, total que más da…
El negocio fundamental de un motor de búsqueda es el desarrollo de tecnología que permita mejores búsquedas, y es además un sector con una fuerte competencia. Mi opinión es que estamos viendo demasiados pocos avances últimamente…
Enrique,
Lo que comentas en el primer punto, no es evidente. Se lleva trabajando más de 40 años en los sistemas inteligentes de lectura, y (creo que gracias a Dios) todavía no se ha inventado un robot que lea como una persona. El análisis semántico es algo terriblemente complejo. Eso que dices de: «No sabe analizar el contenido de una página más allá de encontrar en él unas cuantas palabritas» es una acusación más «seria» de lo que pueda parecer inicialmente. Te lo digo por la experiencia que me toca.
Este comentario aparte, no me cabe duda de que podría haber evolucionado desde el 96, aunque quizá no lo hagan hasta que no vean peligrar su trono. En lugar de profundizar en la búsqueda, siguen buscando rentabilizar lo que realmente les ha hecho de oro, las adwords (léase gmail).
¡Qué fácil es hablar por hablar! A ver si te aplicas el cuento de la «inteligencia» y comprendes que la mayoria de tus demandas corresponden a la web semántica.
….»Lo sé. Es rizar el rizo»… Si, muy definitivamente…. El criticar sin ofrecer una solucion (no solo de palabra suelta sino con todo y algoritmos) no es muy «inteligente» que digamos.
Es fácil ver si una página con www. o sin él son distintas. Basta con coger las dos y ver si son distintas o no. Si realmente quisieran rizar el rizo diferenciarían entre la parte de contenido y la parte de enlaces de una página, tanto para calcular el pagerank como para utilizar o no una página en las respuestas si las palabras pedidas están «en el menú» y no en el contenido.
Ja, ja, ja, ja.
Pues nada machote, diseñanos tu el buscador ese que iluminara la oscuridad en la que vivimos…
Por mucha inteligencia que se le aplique, poco se podrá hacer si el idioma no ha sido previamente estudiado y «regularizado». Todos los intentos por hacer procesamiento automático basándose en máquinas se han dado unos castañazos de cuidado.
El problema en todo esto es que los idiomas no han sido adecuadamente tratados hasta el momento, y no se dispone de los elementos lingüísticos que permitan abordar esta problemática.
Se pueden dar dos aproximaciones: enriquecer el contenido por parte de las personas para que las máquinas lo entiendas («web semántica») o elaborar recursos lingüísticos como base para que las máquinas trabajen mejor.
Un ejemplo de esto último es el diccionario Redes de Ignacio Bosque. En él se muestran combinaciones frecuentes de palabras extraídas de la lengua escrita, y no una mera relación de ellas. Con esta base, un ordenador puede saber si las palabras están combinadas adecuadamente o no (lo de los adjetivos comunes que decía Enrique).
Curiosamente, no existe nada igual en ningún idioma. Por una vez hemos sido pioneros.
Vamos nadie duda que el algoritmo se puede hacer contexto dependiente (algo se puded mejorar), el problema aqui es trade-off respecto a la velocidad de proceso. Eso es lo que les impide mejorar la gallina de los huevos de oro. Por alguna razon el algoritmo no admite esos cambios. O eso o derepente se han vuelto idiotas o vagos.
Por cierto esta mañana busqué imagenes del Windsor en Google y nada.
A ver chatos, no es un tema de algoritmo mas correcto / menos correcto y de tratamiento sintactico, es q los colegas de google tienen un problema inmenso q resolver q basicamente se reduce a indexar la WEB ENTERA en RAM, mantenerla actualizada y dar un servicio rapido y eficiente a los usuarios. Para ello han desarrollado un sistema basado en granjas linux de servidores redundantes, q pueden ser sustituidos en caliente, en caso de fallo, etc. Quiero decir q bajo de la paginita de Google hay algo mas q un algoritmo chulo de busqueda. Para el que tenga mas interes le recomiendo que lea el siguiente texto «the google file system» (por supuesto facilmente de encontrar en google), y una vez estudiado opine, señor Dans.
Saludos!
Diox69, las páginas no tienen IP, cada dominio se traduce a una única IP. Si dos dominios tienen la misma IP, al poner ambos dominios en el navegador (sin especificar subdirectorios ni páginas), se obtiene la misma página (como en el ejemplo de enriquedans.com), a no ser que el servidor haga cosas «truculentas» con la cadena de petición. Yo esto último no lo he visto nunca, pero si conoces algún caso, por favor, dímelo, me gustaría verlo por curiosidad.
Y, por supuesto, dos dominios distintos pueden dar la misma página, pero esto no tiene mucho que ver con las IP (ni tampoco lo he mencionado en mi comentario). Pero aquí se puede hacer lo que dice Daniel Rodríguez, sencillamente comparar las páginas.
Me hace gracia el anónimo que critica, sin ofrecer solución, a Enrique por criticar sin ofrecer solución. Nunca he compartido el argumento de «no critiques si no puedes aportar nada». Enrique, igual que todos nosotros, es un usuario que tiene todo el derecho a criticar un producto que usa aunque no tuviese la más mínima idea de informática. ¿Qué pasa, que si aparecen grietas en mi casa tengo que estudiar arquitectura y proponer una solución en lugar de sencillamente quejarme al que la construyó?. Me parece poco práctico, la verdad.
Don Serlio:
Como dice el dicho: «la critica es facil, el arte es dificil». La critica es un arma de dos filos, facilmente puede pasar a ser ofenciva. Utilizar la palabra estupido en un contexto donde se critica al buscador en cuestion sin una propuesta es hablar por hablar…. porque al fin y al cabo todo es criticable. Empezando por esta critica :-)
Don Enrique se presenta como un Profesor y Director del Área de Sistemas y Tecnologías de Información creo que tiene todo el potencial para fabricar algo mejor.
Don Serlio dice: «¿Qué pasa, que si aparecen grietas en mi casa tengo que estudiar arquitectura y proponer una solución en lugar de sencillamente quejarme al que la construyó?. »
Por lo que yo entiendo eso es un reclamo sobre un bien adquirido defectuoso…. usted tiene todo el derecho, pero cuando uno se pone a «verle los dientes a caballo regalado» realmente las criticas estan sobradas…. que autoridad tiene uno para «criticar»??? Como dice Don Enrique «Tal vez le pido demasiado»…. pues si…. por lo que «pagamos»…. es demasiado….. el que no le gusta que no lo use.
Gracias por la oportunidad de expresion.
Paz
It is only about things that do not interest one that one can give a really unbiased opinion, which is no doubt the reason why an unbiased opinion is always valueless. – Oscar Wilde
I’m afraid this is the way we judge everything these days. We think we are entitled to an opinion about everything whether we know anything about it or not. — Charles Osgood,
Sólo un par de comentarios: 1)www es un subdominio, y no tiene por qué apuntar a la misma página que el «subdominio vacío», aunque muy a menudo sea así. Me parece bastante razonable cómo gestiona Google este tema. 2) Desde las actualizaciones del algoritmo de finales de 2003 y principios del 2004, el famoso Page Rank, basado en contar enlaces entrantes y ponderarlos con sus P.R.s respectivos, tiene cada vez menos importancia. La prueba es que los primeros Google-bombings los podían llevar a cabo una pandilla de amiguetes. Ahora hacen falta muchos miles de activistas para llamar ladrones a los de la SGAE. Los que están en el mundillo del posicionamiento web saben que los enlaces entrantes de poca calidad (procedentes de páginas que no tienen nada que ver con el contenido de la que queremos posicionar) valen poquísimo. Seguramente a Google le queda mucho camino por recorrer, pero su capacidad para «contextualizar» los enlaces entrantes ha mejorado mucho.
Anónimo, probablemente el ejemplo de la casa no haya sido muy afortunado. Veámoslo de otra manera: ¿cuánto te ha costado acceder al post de Enrique? Más o menos lo mismo que a él acceder a Google. Luego su «derecho» a criticar a Google está al mismo nivel que el tuyo a criticar su post (o mi comentario). Si él no tiene «derecho» a hacerlo, tú tampoco lo tienes. Si lo tiene, la crítica a su post está fuera de lugar. Se mire por donde se mire, criticar a un crítico por serlo no es lógico. En fin, perdón por el trabalenguas que además está quedando esto muy «offtopic».
Además, en mi opinión, aunque las formas sean un poco duras, la crítica de Enrique es en el fondo bastante constructiva. No dice «Google es una mierda», dice «estaría bien que Google mejorase esto, esto y esto, posiblemente de tal forma». Desde luego a mí me gustaría que la gente criticase así mi software, al final este tipo de opiniones de los usuarios son la mejor vía para mejorar los programas (y todas las cosas).
Google es la leche, hace un trabajo increible y la interfaz es para tontos, pero busca lo que le dices y no lo que quieres que realmente busque y hasta que no nos consigan leer el pensamiento (espero que pase mucho tiempo) va a funcionar como ahora más o menos.
Quizás sea el peligro para Google: está «malacostumbrando» a la gente a cosas gratuítas que funcionan relativamente bien, hasta el punto de que empiezan a surgir críticas… ¿quizás sea una estrategia para ofrecer un servicio de pago que solucione estos «defectos» que se encuentran en la versión gratuíta? O pr el contrario… ¿que la gente descubra «fallos» en la versión gratuíta pone a Google en una mala posición para en un futuro cobrar por sus servicios?
Los que me leéis habitualmente, aunque sea desde Orlando, FL, deberíais saber que soy un enamorado de Google. Es dificil haber leido este blog un par de veces y no haberse dado cuenta de ello. Me encanta esa empresa, la sigo con muchisima atención, tengo grandes amigos en la compañía, me morí de gusto cuando vinieron Larry y Sergey al Instituto de Empresa… ¿Alguien pensó que me estaba dedicando a llamar idiota a esa compañía? Vamos a ver, hay que saber leer: buscaba opiniones sobre la resistencia de Google a entrar en desarrollos con inteligencia artificial, algo que me llama la atención cuando fichan el tipo de profesionales que fichan y cuando fue una de las cosas que Sergey me comentó muy brevemente como reto corporativo el día del MBA Honoris Causa. Pero como ya hace tiempo y aún no he visto nada, buscaba crear un poco de opinión con respecto al tema. Avisé que usaba la palabra «idiota» no como insulto, sino como opuesta a «inteligente», y dejé claro que adoraba a esa compañía. Una vez eso claro, lo que hice fue comentar posibilidades que me parecían interesantes de cara a futuro, y apuntar el camino de la inteligencia artificial como avenida interesante porque he estado oyendo algunas cosas últimamente sobre desarrollos interesantes en ese sentido, y me extraña que Google no esté ahí. Pero me parece bueno que los usuarios no nos conformemos con las cosas, que critiquemos lo que no nos gusta y pidamos más. No creo que por criticar tenga que aportar el código o los algoritmos de un motor de búsqueda… me parece un poco ridículo, con perdón, que se me pida algo así. Y creo sinceramente estar haciendo crítica constructiva y cariñosa hacia una empresa que me encanta y cuyos productos utilizo constantemente, incluso cuando no son todo lo buenos que deberían ser (como es el caso de Blogger, que aún así sigo utilizando). Tengo un blog para hacer ejercicios intelectuales de este tipo, y acepto todo tipo de feedback, por eso nunca borro comentarios. Pero creer que me dedico a la critica gratuita, que no leo articulos sobre la estructura de Google o que no tengo ni idea de lo que es la web semántica es subestimarme un poco… Perdón si suena chulo pero me lo puedo permitir. Me dedico al mundo académico, leo una barbaridad y me mantengo actualizado. Y critico porque me parece un ejercicio intelectual interesante y que me aporta mucho, de la misma manera que mis lectores pueden comentar, para eso pongo comentarios y renuncio a su moderación. Acepto de buen grado que para conseguir unos cuantos comentarios interesantes y que aportan mucho, tenga que soportar unos cuantas frases descalificantes, y cargadas de una agresividad que algunos deberían hacerse mirar, por el bien de los que les rodean… Que le vamos a hacer, en más de dos mil visitas diarias tiene que haber de todo, es lo que tiene… and I have a thick skin ;-)
Y aún así es el mejor. ¿quien lo puede mejorar hoy por hoy?
Para «Serlio» (y para el que no lo sepa):
El nombre del dominio o FQDN (Fully Qualified Domain Name) se «traduce» a una dirección IP para saber con que servidor conectar.
Una vez conectado con dicho servidor si se utiliza el protocolo HTTP 1.0 se le pide la página y punto, pero si se utiliza el protocolo HTTP 1.1 se le pide la página y se especifica en la cabecera «Host» el FQDN del Web al que se quiere acceder.
Dicho de otra forma si solo se utilizase la versión 1.0 del protocolo HTTP se necesitaría una dirección IP para cada Web, por eso la versión 1.1 se modifico para soportar «Dominios Virtuales».
Para Enrique Dans:
Últimamente te pasas tres pueblos con los comentarios, a ver si evolucionas.
¿El problema de ser Licenciado en Ciencias Biológicas y hablar sobre Tecnología?
P.D.: Comentario mitad irónico mitad son las 2 de la mañana.
Querido enrique, pobre Enrique!
¿Pero es que te crees mas listo que nadie porque te dedicas a escribir sandeces en tu blog?
Lamento el tiempo que he empleado en leerte. Anda, machote, enterate un poquito mas de como usar los motores de busqueda y dejate de tonterias.
¿O como piensas que don google va a saber quien eres tu para darte esa informacion especializada que demandas? ¿Quizas por la ip dinamica que la mayoria de internautas emplean? ¿O quizas por el nombre del equipo?
Yo alucino con los intelectualoides como tu, anda, sigue asi, y jactate de tu blog.
Totalmente de acuerdo: idiotez natural. Naturalísima en tu caso.
Haznos un favor a todos y guárdate para ti estas demostraciones de estolidez.
Para esos niños mimados celosillos:
El tema es muy sencillo, el que quiera que visite el blog de EDans, o el que le salga de las pelotas, y si quiere opina y si no, pues es libre de hacer lo que le dejen hacer. Ahora bien, igual que leo a EDans me gustaría también leer el punto de vista de aquellos venís aquí a descalificar, por si acaso sabéis hacer algo más….
Evidentemente, con EDans se puede estar de acuerdo en unas cosas y en otras no, pero ¡coño! es que seguís siendo esos niños mimados que lloran de rabia, se hacen pis en los pantalones y se mueren de envidia, porque el de enfrente saca mejores notas, tiene una bici nueva o un balón de cuero y vosotros no.
Busca «universidades madrileñas» tanto en yahoo! como en google… y notarás una clara diferencia
En primer lugar, comentar que me parecen totalmente fuera de lugar las criticas dirigidas a EDans por sus criticas que segun me ha parecido leer son bastante constructivas. Sin embargo se le critica de forma muy destructiva. Envidia quizas?
Ya se que Google es gratuito, pero eso no impide el que se le pueda criticar, ya que igualmente gratuito es el servicio de sus competidores y son, creo, estas criticas las que en un momento dado hacen avanzar. Incluso diria que con mis «clicks» sobre sus resultados y de vez en cuando sus anuncios, estoy «pagando» por sus servicios, o dicho de otro modo, estoy haciendo que otros paguen por el servicio. Y vistos los beneficios, no les va mal la formula.
Evidentemente, decir a alguien que es «intelectualoide» mas que critica es un insulto, y como decia mi padre, «el insulto es la razon del que no tiene razon».
Aclaro, ademas, que Google me parece una herramienta estupenda, que auna un magnifico servicio con una interfaz muy rapida, sencilla y sin molestos banners (quizas de las cosas que mas agradezco). ¿Que se le puede pedir mas? Pues claro que si. No exijo mas, pido mas (lo cual no es lo mismo).
Tras esto, comentar que creo que no soy el unico que no tengo ya a Google como unico recurso a la hora de buscar. Ultimamente me da la impresion de que Yahoo! se ha puesto bastante las pilas en este sentido y ofrece resultados mas que aceptables, mas que Google en algunas ocasiones.
Ah! Y corroboro lo que decia EDans al comienzo del post… los Adwords de Google a veces fallan como escopetas de feria.
Otro ejemplo de los fallos de AdWords: Anuncios por palabras(o cómo relacionar un sistema de publicación de weblogs con un método de desintoxicación).
La leche, ahora resulta que para opinar sobre cualquier cosa hay que ser Ingeniero Superior con Master en Sistemas Megachupis…. entonces que nadie comente nunca nada sobre Formula 1, si no es Fernando Alonso o mecánico de Ferrari….La gente puede decir que Google es una mierda o que es perfecto y sin dar motivos si no le apetece….y los demás pueden estar de acuerdo o no, pero sin caer en ataques o insultos personales, que para que haya libertad de expresión tiene que haber respeto 1Ã?º.
Un saludo.
No hace falta saber de nuevas tecnologías para apreciar la calidad humana…
Hasta que quienes nos dedicamos a publicar cualquier cosa en la web no lo hagamos de una forma inteligente (codigos sanos, accesibles, respetuosos de los estandares, separación de contenidos, presentación y comportamientos, inclusión de tags semánticos, etc.) La idiotez, la velocidad y la fuerza serán las únicas opciones inteligentes de búsqueda que nos queden.
El siguiente artículo analiza la inteligencia natural desde los insectos hasta el ser humano y da las pautas para la construcción de robots con las capacidades humanas.
Cada nivel debe ser entendido como un anteproyecto de fin de carrera; se puede sacar mucho trabajo de él. Se deben realizar más proyectos con los niveles bajos que con los altos ya que hay más insectos que mamíferos.
Inteligencia Natural
Google es excremento, y ahora con sus nuevas politicas es excremento podrido. Mas alla de su eficacia su finalidad es detestable, acumular papelitos impresos. Google no es gratis, nada es gratis. Gratis, precio, ganacia, interes, empleado, pobre, derechos, género, lista ejemplificadora mas no completa, son palabras, etiquetas de situaciones mal comprendidas. En manos de las grandes empresas y religiones, son lo mismo, son armas ideologicas. Al ser usadas irreflexivamente sostienen sociedades con clases, violentas e injustas. A google solo le interesa acumular papelitos, no generar el mejor algoritmo de busqueda. Pago 500 millones de dolares en un arreglo por un juicio de propagandas de medicamentos ilegales