Alexander (HH): Website Crawler

Beitrag lesen

Moin Moin!

Berücksichtige unbedingt die Angaben in einer robots.txt sowie in den Meta-Tags zu "robots" (z.B. noindex, noarchive, nofollow) - ansonsten sehe ich nichts, was dagegen spricht.

Sind die jetzt eigentlich rechtlich bindend oder ist das immer noch nur der Wunsch des Seitenbetreibers, der beachtet werden _sollte_?

Wie fast alles im Internet und besonders im WWW ist das eine Konvention, an die man sich halten SOLLTE, aber nicht MUSS. Und wie üblich wird man ausgesperrt, angemault und in die Ecke der Bösen einsortiert, wenn man die Konvention ignoriert.

Noch ein kleines Detail am Rande: Wenn der Bot einen User-Agent-Header sendet, dann sollte es ein eigener sein und nicht ein Imitat von IE, FF, Opera oder Safari. Gängige Bots schleppen im User-Agent die URL einer Info-Seite mit, die dem Server-Betreiber mitteilt, wie und warum der Bot auf seiner Seite herumstöbert, und idealerweise auch, was er unternehmen kann, um das zukünftig zu verhindern (robots.txt) oder dem Bot das Leben leichter zu machen (sitemap.xml).

Alexander

--
Today I will gladly share my knowledge and experience, for there are no sweeter words than "I told you so".