Erweiterte robots.txt

Es gibt einfach so eine Anzahl von Web-Grabbler, die ich auf manchen Projekten in Zukunft nicht mehr sehen möchte. Inzwischen ist daraus eine recht umfangreiche Lsite geworden, die natürlich fortlaufend ergänzt wird. Wie die entprechende robots.txt aussehen könnte, sieht man hier.
Eine ständig aktualisierte Liste von Bots findet man dort.


Spione bitte draussen bleiben

Wie versprochen hier ein paar Hinweise auf “Spione”, die im Linknetzwerk nichts verloren haben und deshalb per Robots.txt ausgesperrt werden sollten:
User-agent: Slurp
Disallow: /
User-agent: sistrix
Disallow: /
User-agent: dotbot
Disallow: /
An erster Stelle natürlich Slurp, der Yahoo-Bot und Basis aller Backlinkchecker, dazu die deutsche Spezialität sistrix und der dotbot (u.a. Hauptbasis für SEOmoz). Diese drei auszusperren ist m.E. ein […]


Google Bot liest offiziell Flash und JavaScript

Die Meldung, dass Google Webformulare ausfüllen können soll, haben wahrscheinlich alle mitbekommen, die sich mit SEO beschäftigen. Aber der Blog Beitrag hatte einen versteckten Hinweis, der m.E. viel interessanter ist:
“Google is constantly trying new ideas to improve our coverage of the web. We already do some pretty smart things like scanning JavaScript and Flash to […]