Website Crawler
Dr.Colossos
- recht
0 Sven Rautenberg0 Dr.Colossos0 Multi0 Alexander (HH)0 Multi
Hi,
ich hätte von einem Kunden eine Anfrage die es u.a. erfordert Webseiten anderer Unternehmen zu durchsuchen.
Ist sowas rechtlich bedenklich?
Die Seiten sind freizugänglich, es geht hierbei nur um eine automatisierte Suche zur Zeitersparnis.
Danke sehr!
Moin!
ich hätte von einem Kunden eine Anfrage die es u.a. erfordert Webseiten anderer Unternehmen zu durchsuchen.
Ist sowas rechtlich bedenklich?
Die Seiten sind freizugänglich, es geht hierbei nur um eine automatisierte Suche zur Zeitersparnis.
Berücksichtige unbedingt die Angaben in einer robots.txt sowie in den Meta-Tags zu "robots" (z.B. noindex, noarchive, nofollow) - ansonsten sehe ich nichts, was dagegen spricht.
- Sven Rautenberg
Okay,
danke!
Mahlzeit,
Berücksichtige unbedingt die Angaben in einer robots.txt sowie in den Meta-Tags zu "robots" (z.B. noindex, noarchive, nofollow) - ansonsten sehe ich nichts, was dagegen spricht.
Sind die jetzt eigentlich rechtlich bindend oder ist das immer noch nur der Wunsch des Seitenbetreibers, der beachtet werden _sollte_?
Moin Moin!
Berücksichtige unbedingt die Angaben in einer robots.txt sowie in den Meta-Tags zu "robots" (z.B. noindex, noarchive, nofollow) - ansonsten sehe ich nichts, was dagegen spricht.
Sind die jetzt eigentlich rechtlich bindend oder ist das immer noch nur der Wunsch des Seitenbetreibers, der beachtet werden _sollte_?
Wie fast alles im Internet und besonders im WWW ist das eine Konvention, an die man sich halten SOLLTE, aber nicht MUSS. Und wie üblich wird man ausgesperrt, angemault und in die Ecke der Bösen einsortiert, wenn man die Konvention ignoriert.
Noch ein kleines Detail am Rande: Wenn der Bot einen User-Agent-Header sendet, dann sollte es ein eigener sein und nicht ein Imitat von IE, FF, Opera oder Safari. Gängige Bots schleppen im User-Agent die URL einer Info-Seite mit, die dem Server-Betreiber mitteilt, wie und warum der Bot auf seiner Seite herumstöbert, und idealerweise auch, was er unternehmen kann, um das zukünftig zu verhindern (robots.txt) oder dem Bot das Leben leichter zu machen (sitemap.xml).
Alexander
Mahlzeit,
Noch ein kleines Detail am Rande: Wenn der Bot einen User-Agent-Header sendet, dann sollte es ein eigener sein
Na zumindest meiner macht das. Sogar so gut, dass ich auf dessen Mailadresse Spam bekomme ;)
Gängige Bots schleppen im User-Agent die URL einer Info-Seite mit
Hm ... das könnte ich noch nachholen. Mein Bot (Nutch) hält sich an die robots.txt und ist auch ansonsten ähnlich wie Google vom Verhalten her.