Multi: Website Crawler

Beitrag lesen

Mahlzeit,

Noch ein kleines Detail am Rande: Wenn der Bot einen User-Agent-Header sendet, dann sollte es ein eigener sein

Na zumindest meiner macht das. Sogar so gut, dass ich auf dessen Mailadresse Spam bekomme ;)

Gängige Bots schleppen im User-Agent die URL einer Info-Seite mit

Hm ... das könnte ich noch nachholen. Mein Bot (Nutch) hält sich an die robots.txt und ist auch ansonsten ähnlich wie Google vom Verhalten her.