Fremde Website crawlen
Naps
- recht
0 michat0 Naps
0 Texter mit x
Hi,
gibt es Beschränkungen bei der Geschwindigkeit, mit der ich fremde Websites crawlen kann?
Ich denke da eher in die Richtung, dass es nicht als "Angriff" gewertet wird?
MfG Naps
Hi
naja, wenn du es mit google tempo machst (unbedeutendes ca alle 6 monate, bedeutende foren auch täglich) bist du bestimmt im grünen bereich. Das entspricht aber wohl nicht deinen Kraulbedürfnissen. Hilfreich zur Beurteilung (Stalking vs. den Hof machen) könnten jedoch die Kraulwünsche deiner angebeteten ... Seite sein.
MH
naja, wenn du es mit google tempo machst (unbedeutendes ca alle 6 monate, bedeutende foren auch täglich) bist du bestimmt im grünen bereich. Das entspricht aber wohl nicht deinen Kraulbedürfnissen. Hilfreich zur Beurteilung (Stalking vs. den Hof machen) könnten jedoch die Kraulwünsche deiner angebeteten ... Seite sein.
Ich würde es eigentlich nur ein mal machen müssen. Mit Geschwindigkeit meinte ich die Links bzw. Seiten / Sekunde, Minute usw.
MfG Naps
Ich würde es eigentlich nur ein mal machen müssen. Mit Geschwindigkeit meinte ich die Links bzw. Seiten / Sekunde, Minute usw.
Du meinst ein mal alle Unterseiten, die zum Projekt gehören?
Willst du mehrere Seiten parallel abfragen? Wenn nein, einfach nacheinander, wenn eine Seite übermittelt wurde, die nächste Seite abfragen. Wird doch ausreichen oder? Man kann auch 5 Sekunden Pause einlegen, muß man aber nicht.
Du meinst ein mal alle Unterseiten, die zum Projekt gehören?
genau
Willst du mehrere Seiten parallel abfragen? Wenn nein, einfach nacheinander, wenn eine Seite übermittelt wurde, die nächste Seite abfragen. Wird doch ausreichen oder? Man kann auch 5 Sekunden Pause einlegen, muß man aber nicht.
Nein, vom Aufbau des Scripts, durchlaufe ich einfach alle Links in einer Schleife. Ich habe zur Sicherheit nach jedem Link 2 Sekunden Pause eingelegt.
Danke!
MfG Naps
Hello,
Nein, vom Aufbau des Scripts, durchlaufe ich einfach alle Links in einer Schleife. Ich habe zur Sicherheit nach jedem Link 2 Sekunden Pause eingelegt.
Schleife ist aber schlecht.
Rekursiv wäre da schon der bessere Ansatz. :-)
Und denk dran, auch die Header abzufragen und empfangene Cookies ggf. wieder mitzusenden, damit Dein Script auch das zu sehen bekommt, was ein üblicher Nutzer mit seinem Browser (erstmal ohne Einsatz von JS) zu sehen bekommen würde.
Vergiss auch nicht die im Header verlinkten Dateien, wie z.B. CSS, abzuholen.
Ein gutes Crawlerscript ist nichts Triviales!
Liebe Grüße aus dem schönen Oberharz
Tom vom Berg
Schleife ist aber schlecht.
Rekursiv wäre da schon der bessere Ansatz. :-)
Stimmt, ist sicher besser ;)
Und denk dran, auch die Header abzufragen und empfangene Cookies ggf. wieder mitzusenden, damit Dein Script auch das zu sehen bekommt, was ein üblicher Nutzer mit seinem Browser (erstmal ohne Einsatz von JS) zu sehen bekommen würde.
Vergiss auch nicht die im Header verlinkten Dateien, wie z.B. CSS, abzuholen.
In diesem Fall, brauche ich das zum Glück nicht zu beachten, weil es mir nur um einen Teil Website geht, der immer gleich ist.
MfG Naps
HTTrack ist nichts für dich?
Nein leider! Ich speicher die Daten direkt in einer MySQL DB.
Danke!
MfG Naps
Mahlzeit,
Nein leider! Ich speicher die Daten direkt in einer MySQL DB.
Und wo das Problem? Mit httrack holst du dir die Seiten auf deinen Rechner und dann kannst du in Ruhe die Seiten analysieren und in die Datenbank schreiben.
gibt es Beschränkungen bei der Geschwindigkeit, mit der ich fremde Websites crawlen kann?
Ich denke da eher in die Richtung, dass es nicht als "Angriff" gewertet wird?
Wenn man ein berechtigtes Interesse für die Abfragefrequenz hat, dann dürfte man sich damit kaum was zu Schulden kommen lassen. Bei Inhalten, die sehr oft aktualisiert und abgefragt werden, sollte der Anbieter vorsorgen.
Bei fehlendem berechtigtem Interesse, würde wohl ein unberechtigtes Interesse (Schädigungsabsicht) oder Fahrlässigkeit angenommen werden, was ggf. zivilrechtlich und strafrechtlich (303b) geahndet werden kann.