Hace unos días, JohnnyMC (Private Radio) se preguntaba cuáles serían las fuentes de Google News. Ante la negativa de Google a revelarlo, decidió hacerse un pequeño script en PHP que cada quince minutos capturaba la página de Google News y extraía los titulares, referenciando el medio del que provenían. Esto dio origen a este interesante listado para Google News edición internacional en inglés. Pero el caso es que varias personas preguntamos a John, en los comentarios de su post original, si podía pasarnos el script para hacer lo mismo en otros países. Como entre otros estábamos tres españoles, John se ha marcado el detallazo de replicar el estudio para España, además de para Francia, México, Canadá, Reino Unido, Australia, Alemania y La India. Una vez más, prueba de que en la red, pocas cosas pueden tener secretos.
El listado lleva inventariadas por ahora (a la hora de subir este post) 422 noticias de 153 fuentes, entre las que se cuentan los principales periódicos de España y Latinoamérica (salvo El País, claro), diarios económicos, deportivos, tecnológicos, portales generalistas, páginas de televisiones y radios, agencias, etc. Llama la atención el clarísimo sobremuestreo de Terra España (¿¿??) y las relaciones numéricas entre los medios más conocidos, que habra que analizar con cierto cuidado más adelante en cuanto las medias se estabilicen.
Pues al final he decidido seguir con el proyecto, por divertimento, y cambiarlo de PHP por falta de librerías a Java en el que me desenvuelvo mejor.
Respecto a Terra, me parece normal, lo que no tiene en cuenta, al menos, es una baremación por pesos.
Un puntal este Johnny….
Por si a alguien le interesa yo también he programado un sistema que desde ayer tarde crawlea Google Noticias España en busca de fuentes y llevo más de 400 (de las supuestas 700 que hay)
La info en: http://www.googlemania.com/fuentes-news.php
Sería interesante averiguar porqué Google News no rastrea los weblogs… creo que éstos aportan mucha información y es una pena no poder acceder a l misma a través del buscador de referencia…
Por que no usa Google El País como fuente? Es anti Prisa?
Pues pensé que era por ser de pago, pero no… el WSJ sí está en el listado de fuentes de Google News en inglés. Posiblemente sea el medio quien aprueba o desaprueba al robot de Google News, pero no lo sé, la verdad, y si es así, da para un artículo interesante. Lo preguntaré.
Si no tiene a elpais.es es probablemente porque Prisa/com no quiere.
Así de claro.
Hola Enrique,
¿Xq te sorprendes por la supremacía de Terra? De los últimos meses a esta parte han realizado un buen trabajo de SEO y entiendo que publican unas 200 noticias x día.
No me sorprende porque sea Terra… pero es que lleva más del doble de noticias que el siguiente (ochenta y tantas frente a cuarenta y tantas), que es una agencia, y unas veinte veces más que la media de todas las otras fuentes. Semejante predominio me sorprendería de cualquiera, fuese quien fuese. Algo no está bien en el algoritmo. Yo no consulto un agregador de noticias para tener un predominio tan brutal de una sola fuente.
Google news sí levanta información de weblogs! existen entre sus fuentes muchos blogs que se muestran al hacer una búsqueda en google news, lo que pasa es que cada editor de un sitio debe dar de alta voluntariamente al mismo para que sea indexado por google news, de modo que ya no depende de ellos sino de el editor.
Hola, los enlaces dados para el rastreo de fuentes de Google News ya no funcionan, error 404, alguien sabe si existe otro similar que rastree las fuentes de Google News en el 2012? Yo tampoco me creo las supuestas 700 fuentes que dicen tener para España.