Der eigene Webcrawler

Gestern auf meinen Post zur Schweizer Suchmaschine sind Fragen bei meinen Lesern aufgetaucht, was Spider bzw. Webcrawler betrifft. Bei dieser Gelegenheit zwei generelle Anmerkungen: Ich freue mich immer über Feedback, egal welcher Art. Wer Fragen direkt an mich stellen möchte, muss dies natürlich nicht in den Kommentaren tun, v.a. wenn sensible Daten mit der Problematik verbunden sind. Am liebsten ist mir jedoch der Kontakt via ICQ (286206314). Aber bitte nicht böse sein, wenn ich Grundlagen mit Verweise auf die ein oder andere Quelle im Netz beantworte. Eben beispielsweise die gestrigen Fragen zur Funktionsweise von Webcrawlern. Der englische Artikel in Wikipedia (von dort stammt auch das Bildchen) ist sehr ausführlich und hat sehr viele Links auf externe Quellen. Wenn dann noch Fragen unbeantwortet sind oder sich individuelle Verständnisproblem ergeben, helfe ich gerne so gut ich kann.
Der eigene Webcrawler
Man muss sich keineswegs hinsetzen und einen eigenen Crawler entwickeln. Es existieren zuverlässige Open Source Lösungen in so gut wie jeder Programmiersprache. Ich würde jetzt nicht behaupten, dass jeder SEO einen Crawler im Einsatz haben muss, aber ein wichtiges Werkzeug in der täglichen Arbeit ist so ein digitales Krabbeltierchen schon. Als Backlinkchecker kann es ebenso eingesetzt werden wie als Kundschafter und Informationsdienst - es muss nicht immer eine Suchmaschine befüttert werden.
Wer die Grundbegriffe einer UNIX-Shell (ich bleibe dabei, ein SEO muss damit umgehen können) verinnerlicht hat, kann beispielsweise in kurzer Zeit mit den Tools wget, diff und cron einen ganz einfachen “Crawler” basteln, der über Veränderungen auf bestimmten Websites informiert. Gut könnte so ein Tool zur Überwachung der Wettbewerber eingesetzt werden. Auch in Zeiten des Web 2.0 stehen bekanntlich nicht alle Inhalte als RSS zur Verfügung.
Passende Links
- Open Book: Wie werde ich ein UNIX-Guru
- Jede Menge Crawler in Java
- Empfehlenswerter Crawler in Python
Wenn Sie eine eigene Meinung dazu haben, schreiben Sie doch einen Kommentar. Oder vielleicht möchten Sie aktuell über neue Beiträge informiert werden, dann abonnieren Sie doch den Feed.
Kommentare
Hi Christian, prinzipiell gebe ich Dir natürlich Recht. Die Programmiersprache ist egal. Nur PHP ist für mich in solchen Fällen immer zweite Wahl. Man merkt eben schon, dass diese Skriptsprache nicht für Kommandozeile entwickelt wurde, sondern für den unkomplizierten Aufbau von dynamischen Websites. Und da hackt es eben schon immer an der ein oder anderen Stelle.
Die Idee mit dem UNIX-Crawler ist interessant. Man könnte dann noch mit grep den Inhalt analysieren …
Ich denke aber, dass es besser ist mit anderen Mitteln an die Aufgabe zu gehen. Besonders für das Datenmodell sollte man sich ein bisschen Zeit nehmen. Wenn man wirklich viele Seiten crawlen will gehen einem sonst schnell die Ressourcen (aka Speicherplatz) aus.
Kompliziert wird’s dort wo Crawler unerwünscht sind und nach kurzer Zeit geblockt werden ;)
Für diese Zwecke habe ich dann noch ein zusätzliches Tool zur Hand, welches den IE 6 als Render-Engine benutzt und dadurch 100% als natürlicher Besucher daher kommt und bisher noch nirgends geblockt wurde ;)
Verbraucht zwar mehr CPU, aber manchmal ist es besser wenn man unter dem Radar bleibt…
Eine kleine Verständnisfrage von mir als interessierter Laie:
Was für Informationen lest ihr denn von den Seiten aus, und geht ihr dabei spezifisch vor oder sucht ihr einfach wild nach Inhalten? :S
Mir fällt spontan nicht ein was für Inhalte man wieso, wo und wann benötigt.. und was man dann damit anfängt :D
Ich danke euch schonmal :)
‘wünsche euch einen angenehmen Samstag.
Klasse Beitrag. Jetz such ich mir mal ein Tutorial dazu.
Ein verlinktes Tutorial wäre nicht schlecht.

Genauso kann mans ja eben mit PHP machen, da findet man (wenn ein SEO nicht proggen kann ;) sicher auch einige Leute in Foren die einen kostengünstig bei sowas helfen können.
Jeder muss halt entscheiden was er haben will und was er braucht. Ich persönlich lasse auch meine kleinen Datensammler täglich auf Webseiten los um mir ein paar Informationen zu beschaffen.