Dit is een vreemde. Websites kunnen een bestand opnemen dat ervoor zorgt dat zoekmachines bepaalde zaken overslaan.
Dat heeft ook het Witte Huis gedaan middels hun robots.txt bestand.
Wat daarin opvalt is, naast de lange rij uitsluitingen, het feit dat eigenlijk alle directories in combinatie met “iraq” uitgesloten worden.
Ik vat de logica niet. Is dit bewuste informatie afscherming? Of is dit een manier om onnodig verkeer te voorkomen.
Zijn er hier experts in de zaal?
(via Eschaton)
Reacties (19)
jup
the White House changed the text on a story from the previous May. In August the page was changed to read “President Bush Announces MAJOR Combat Operations in Iraq Have Ended” – The original story had a headline saying “President Bush Announces Combat Operations in Iraq Have Ended”. So if the White House changes old news stories again, it will be very difficult for anyone to identify or prove that they have done so zie: hier
Veel besproken internet issue trouwens, google eens.
In een info war staat natuurlijk meteen alles ter discussie, inclusief commerciele partijen als Google, etc.
Oeps, een beetje meer research mijnerzijds was op zijn plaats geweest zie ik.
Nog even… en Mohammed Saïd al-Sahaf staat op de loonlijst van het Witte Huis: “There are no infidels on the Web”.
Een ander punt is waarom alle robots zo’n lange lijst van uitsluitingen kennen en User-agent: whsearch apart is genoemd en waarvan drie directories die nieuw zijn (/sitemap.html, /privacy.html, /accessibility.html) whsearch zou de searchengine van het witte huis zelf zijn (zie hier) maar als ik op whsearch gaat kijken zie ik niets bijzonders. Eerder een searchengine die zich had gespecialiseerd op het Whitehouse en daarom extra buitengesloten is. Iemand een suggestie? Mis ik iets?
trouwens, robot text wordt gewoon standaard geskipped door alle zoekmachines, misschien displayen ze het niet publiekelijk, maar reken er maar op dat ze alles filen..
Volgens mij worden er directories uitgesloten, niet het thema ‘iraq’.
Die van GroenLinks is ook merkwaardig trouwens.
@Caprio: maar dat zijn dan toch vreemde directories:
/history/grounds/kids/kidsgarden/iraq
/omb/legislative/sap/107-1/number/print/iraq
/president/holiday/historicalpets2/iraq
@David: Inderdaad. Die is vreemd. 2e kamer uitsluiten???
Andere partijen hebben er geen of een logische (zover ik zo snel kon vinden).
Leuke hobby dit.
Als je een search doet op iraq op whitehouse.gov zie je dat ze een bepaalde url adviseren voor informatie. Het uitsluiten van andere pagina’s voorkomt op die manier dat mensen die informatie over iraq zoeken ‘verdwalen’ ergens/op niet-iraq pagina’s waar het woordje iraq in voorkomt toevallig.
Je dnekt toch niet dat er geheime documenten en notities op whitehouse.gov staan waarin Bush geheime aantekeningen bijhoudt en waarin hij erkent dat hij achter het lekken van CIA agenten hun naam zit??
Volgens mij betreft dit gebruik gewoon het dirigeren van informatie.
binnenkort komt iran er nog bij
@Caprio: Nee, niet geheimen die per ongeluk onthult kunnen worden. Maar waarom zou je nou specifiek voor Iraq dingen willen uitfilteren? Tenzij het dubbelop info is (niet na te gaan).
Het levert me gewoon vraagtekens op die ik ook in de verklaringen van anderen niet opgelost zie worden.
De verklaring over het niet gechached willen worden ivm latere correcties is een aardige. Maar verklaart ook niet voldoende.
Vandaar de speurtocht naar een deskundige.
(Mag die gelijk die van groenlinks uitleggen, die is ook wonderlijk).
:-) DP :-) Om het eerste (totaal)plaatje moest ik het hardst lachen.
super off topic ik weet het maar ik moest het gewoon effe kwijt
Ja, grappig, maar de discussie is om zeep.
Jammer, ik hoopte op deskundige inbreng hier over de zorgen die men klaarblijkelijk heeft over de Google cache.
Helemaal 1984 dat men de handen vrij wil hebben om de geschiedenis te kunnen herschrijven.
En wat is de relatie met het feit dat Google vorig jaar de zoekresultaten op de zoekactie “Lynndie England” of “Abu Ghraib” uit de Images search heeft gehaald of gehouden? Of de cache bestanden van Al Jazeera onbereikbaar maakte?
@Albert: Dat van die geschiedenis herschrijven (of in ieder geval niet willen laten zien dat bepaalde documenten in de tijd verandert worden) wist ik. Dat laatste stukje niet. Heb je daar toevallig verwijzingen voor?
De storm is al weer een tijdje geleden geluwd, maar blader eens door deze links:
http://slashdot.org/article.pl?sid=04/11/07/1442217
http://www.camerairaq.com/2004/11/has_google_bloc.html
http://www.ejumpcut.org/currentissue/links.html
http://www.answers.com/topic/lynndie-england
http://volokh.com/posts/1099937131.shtml
http://sf.indymedia.org/news/2004/02/1678320.php
@David: Groenlinks is te verklaren, dit zeiden de webmasters:
We hebben inderdaad gezocht naar de reden waarom zoveel plekken niet
opgenomen worden in zoekmachines: dit heeft waarschijnlijk met onze vorige
website te maken. We gaan de robot’s aanpassen.