Erweiterte robots.txt

Es gibt einfach so eine Anzahl von Web-Grabbler, die ich auf manchen Projekten in Zukunft nicht mehr sehen möchte. Inzwischen ist daraus eine recht umfangreiche Lsite geworden, die natürlich fortlaufend ergänzt wird. Wie die entprechende robots.txt aussehen könnte, sieht man hier.
Eine ständig aktualisierte Liste von Bots findet man dort.


Vorsicht Falle: Links gehören nicht der Zielseite

Vorsicht Falle: Wer glaubt es würde genügen, Yahoo beim zu schützenden Webprojekt (in der Grafik W3) auszusperren, der irrt. Es verschwindet zwar der Inhalt der gesperrten Domain aus dem Yahoo-Index, aber eben nur die Inhalte der gesperrten Domain. Die Backlinks zur Domain werden weiterhin angezeigt, denn die Links - und hier liegt der Denkfehler - […]


Spione bitte draussen bleiben

Wie versprochen hier ein paar Hinweise auf “Spione”, die im Linknetzwerk nichts verloren haben und deshalb per Robots.txt ausgesperrt werden sollten:
User-agent: Slurp
Disallow: /
User-agent: sistrix
Disallow: /
User-agent: dotbot
Disallow: /
An erster Stelle natürlich Slurp, der Yahoo-Bot und Basis aller Backlinkchecker, dazu die deutsche Spezialität sistrix und der dotbot (u.a. Hauptbasis für SEOmoz). Diese drei auszusperren ist m.E. ein […]


Geschickt selbst ausgetrickst

Die robots.txt ist oftmals die Ursache, wenn es Indizierungsprobleme gibt bei einer Website gibt, daher werfe ich in solchen auch immer gleich einen Blick darauf. Auf eine Variante, sich geschickt selbst auszusperren, möchte ich gleich hinweisen, nur weil ich selber nicht sofort darauf gekommen bin.
Yahoo hatte die Startseite des Projektes nur als Domain im Index […]


Der beste Spider-Viewer

Die besten Spider Viewer sind für mich persönlich die Text-Browser w3m und Lynx. Im Screenshot sieht man die Startseite von www.rentaseo.de wie ihn (wohl) auch der Google Bot sieht: Formatierter Text mit Links. JavaScript, Bilder und Plugins werden weggefiltert.
Lynx / w3m gibt es für so gut wie alle Plattformen: Windows, Linux, OS X - selbst […]