Erweiterte robots.txt
Es gibt einfach so eine Anzahl von Web-Grabbler, die ich auf manchen Projekten in Zukunft nicht mehr sehen möchte. Inzwischen ist daraus eine recht umfangreiche Lsite geworden, die natürlich fortlaufend ergänzt wird. Wie die entprechende robots.txt aussehen könnte, sieht man hier.
Eine ständig aktualisierte Liste von Bots findet man dort.
Spione bitte draussen bleiben
Wie versprochen hier ein paar Hinweise auf “Spione”, die im Linknetzwerk nichts verloren haben und deshalb per Robots.txt ausgesperrt werden sollten:
User-agent: Slurp
Disallow: /
User-agent: sistrix
Disallow: /
User-agent: dotbot
Disallow: /
An erster Stelle natürlich Slurp, der Yahoo-Bot und Basis aller Backlinkchecker, dazu die deutsche Spezialität sistrix und der dotbot (u.a. Hauptbasis für SEOmoz). Diese drei auszusperren ist m.E. ein […]
Geschickt selbst ausgetrickst
Die robots.txt ist oftmals die Ursache, wenn es Indizierungsprobleme gibt bei einer Website gibt, daher werfe ich in solchen auch immer gleich einen Blick darauf. Auf eine Variante, sich geschickt selbst auszusperren, möchte ich gleich hinweisen, nur weil ich selber nicht sofort darauf gekommen bin.
Yahoo hatte die Startseite des Projektes nur als Domain im Index […]