Informationen "Parsen" & Dateien Downloaden automatisieren
Biesterfeld
- recht
1 MudGuard1 MudGuard0 Biesterfeld
1 Erhard_Rainer0 wahsaga
Hej Forum,
mich bewegen gerade zwei Fragen, wo ich mir nicht ganz sicher bin, ob ich das darf oder nicht.
[] mir ganz privat
[] z.B. Besuchern auf meiner Seite
in anderer Form verfügbar machen?
Hintergrund ist wirklich nur, dass ich mich gerade etwas in die Netzwerkprogrammierung hineintaste und mir zur Übung kleine Aufgaben erdenke, die letztendlich nur Abläufe automatisieren, die ich sonst von Hand gemacht hätte (z.B. Grafiken herunterladen, Preisvergleiche personalisiert darstellen, Suchergebnisse nach persönlichen Kriterien sortieren).
Habt Dank.
Beste Grüße
Biesterfeld
Hi,
- Darf ich eine Internetseite, die einen Dienst in irgendeiner Form bereitstellt (Preisvergleich, Suchmaschine) mit einem selbstgeschriebenen Programm aufrufen und die Inhalte dieser Seite, also die Leistung des Dienstes herausparsen und
[] mir ganz privat
Da dürfte nichts dagegen sprechen.
[] z.B. Besuchern auf meiner Seite
Hier dürfte das Urheberrecht zuschlagen. Da dürfte es egal sein, ob Du die Informationen manuell oder automatisiert klaust und aufbereitest.
- Darf ich mit einem selbstgeschriebenen Programm ein Serververzeichnis durchsuchen
Um das machen zu können, reicht HTTP nicht aus ...
Darf ich das auch nach einer BruteForce-Methode tun? Beispiel, ich weiß im Ordner http://www.domain.tld/img befinden sich beliebig viele Grafikdateien, die zum freien Herunterladen über http://www.domain.tld/index.html angeboten sind. Die Dateien sind alle _willkürlich_ mit einer dreistelligen Nummer bezeichnet, darf ich dann einfach mittels for(int i = 1; i < 999; i++) das gesamte Verzeichnis durchsuchen und mir jede Datei die ich finde abspeichern?
Dürfen? Kann sein, weiß ich nicht.
Wie würdest Du es finden, wenn jemand das auf Deinem Webspace macht und Dir den Traffic verursacht?
Hintergrund ist wirklich nur, dass ich mich gerade etwas in die Netzwerkprogrammierung hineintaste und mir zur Übung kleine Aufgaben erdenke, die letztendlich nur Abläufe automatisieren, die ich sonst von Hand gemacht hätte (z.B. Grafiken herunterladen, Preisvergleiche personalisiert darstellen, Suchergebnisse nach persönlichen Kriterien sortieren).
Ach so. Nutze für Deine Übungen Deinen eigenen Webserver - am einfachsten wird es, wenn dieser lokal installiert ist.
Für Dein Programm ist es - wenn es http benutzt - vollkommen unerheblich, wo der angesprochene Webserver läuft.
cu,
Andreas
Hi,
Ach so. Nutze für Deine Übungen Deinen eigenen Webserver - am einfachsten wird es, wenn dieser lokal installiert ist.
Für Dein Programm ist es - wenn es http benutzt - vollkommen unerheblich, wo der angesprochene Webserver läuft.
Mist, zu früh auf "Absenden" gekommen.
Der eigene lokale Webserver hat bei sowas einen ganz wesentlichen Vorteil gegenüber irgendeinem fremden Webserver:
Du kannst in die access.log und error.log gucken - das hilft bei der Analyse, falls Dein Programm nicht tut, was es soll.
cu,
Andreas
Hej Andreas,
dank dir schonmal für Deine Antwort.
- Darf ich mit einem selbstgeschriebenen Programm ein Serververzeichnis durchsuchen
Um das machen zu können, reicht HTTP nicht aus ...
Sondern? Wenn ich eine willkürliche Adresse in meine Browseradressleiste einttippe und auf absenden klicke ist das doch auch http.
Darf ich das auch nach einer BruteForce-Methode tun? [...]
Dürfen? Kann sein, weiß ich nicht.
Wie würdest Du es finden, wenn jemand das auf Deinem Webspace macht und Dir den Traffic verursacht?
Wahrscheinlich nicht so doll. Andererseits, wenn ich einen Service betreibe, wo ich z.B. Grafiken zur Betrachtung und explizit zum Rechtsklick-Download anbiete muss ich genauso mit Traffic rechnen. Aber zum Verständnis: Verursacht eine http-Anfrage die ins leere führt überhaupt viel Traffic? Wenn nein, habe ich doch nur in sehr kurzer Zeit den gleichen Traffic verursacht, wie wenn ich mir einfach den gesamten Webauftritt eibmal angeschaut habe.
Hintergrund ist wirklich nur, dass ich mich gerade etwas in die Netzwerkprogrammierung hineintaste
Ach so. Nutze für Deine Übungen Deinen eigenen Webserver - am einfachsten wird es, wenn dieser lokal installiert ist.
Naja es ist natürlich auch schön wenn ich mit meinen Progrämmche auch einen gewissen Nutzen verknüpfen kann, aber du hast vollkommen recht, zur Analyse ist es in der Tat sinnvoll seinen eigenen Server zu verwenden, werd ich machen.
Dank dir nochmal.
Beste Grüße
Biesterfeld
Hi,
- Darf ich mit einem selbstgeschriebenen Programm ein Serververzeichnis durchsuchen
Um das machen zu können, reicht HTTP nicht aus ...
Sondern? Wenn ich eine willkürliche Adresse in meine Browseradressleiste einttippe und auf absenden klicke ist das doch auch http.
Damit kannst Du aber ein Serververzeichnis nicht durchsuchen.
Du kannst nur einzelne Dateien abzurufen versuchen. Aber um das Verzeichnis durchsuchen zu können, müßtest Du dessen Inhalt auflisten lassen können.
Und das geht per HTTP nicht - es gibt keine HTTP-Request-Methode "LIST_FOLDER_CONTENT".
cu,
Andreas
Hej Andreas,
Und das geht per HTTP nicht - es gibt keine HTTP-Request-Methode "LIST_FOLDER_CONTENT".
Das habe ich jetzt verstanden ;)
Beste Grüße
Biesterfeld
Hi,
Aber zum Verständnis: Verursacht eine http-Anfrage die ins leere führt überhaupt viel Traffic?
Incoming: genausoviel wie eine erfolgreiche.
Outgoing: das hängt vom Umfang der Fehlerseite ab.
Ansonsten: siehe auch wahsaga, Du erzeugst viele Einträge im error.log des betroffenen Servers.
Und nochwas.
Wenn auf dem Server irgendeine bild123.jpg rumliegt, die aber (im Gegensatz zu den anderen bild001, bild002 usw.) nirgends auf dem Server verlinkt ist:
ist diese dann zum Runterladen vom Serverbetreiber wirklich freigegeben?
Wenn der Serverbetreiber wollte, daß die bild123.jpg wirklich freigegeben ist, hätte er sie doch verlinkt ...
(ok, man könnte auch argumentieren, wenn sie nicht freigegeben sein soll, hätte er sie nicht ungeschützt auf den Server legen sollen, aber das ist m.E. eine rechtliche Grauzone ...)
cu,
Andreas
hi,
Und nochwas.
Wenn auf dem Server irgendeine bild123.jpg rumliegt, die aber (im Gegensatz zu den anderen bild001, bild002 usw.) nirgends auf dem Server verlinkt ist:ist diese dann zum Runterladen vom Serverbetreiber wirklich freigegeben?
Wenn der Serverbetreiber wollte, daß die bild123.jpg wirklich freigegeben ist, hätte er sie doch verlinkt ...
komm schon - wenn jetzt jemand einen "passwordschutz" in javascript per weiterleitung auf passwort+".html" vorschlagen würde, würdest du doch genau andersherum argumentieren, oder? ;-)
(ok, man könnte auch argumentieren, wenn sie nicht freigegeben sein soll, hätte er sie nicht ungeschützt auf den Server legen sollen, aber das ist m.E. eine rechtliche Grauzone ...)
sehe ich nicht so (ja, ich weiß, (deutsche) gerichte kümmern sich wenig um "gesunden menschenverstand") - die ressource wurde auf dem webserver zum abruf per HTTP bereitgestellt, ohne weitere schutzmaßnahmen. also hat auch keiner ein recht, sich zu beschweren, wenn ich sie dann auch tatsächlich abrufe.
gruß,
wahsaga
Hi,
ist diese dann zum Runterladen vom Serverbetreiber wirklich freigegeben?
komm schon - wenn jetzt jemand einen "passwordschutz" in javascript per weiterleitung auf passwort+".html" vorschlagen würde, würdest du doch genau andersherum argumentieren, oder? ;-)
Du kennst die Bedeutung des "?" am Ende eines Satzes?
cu,
Andreas
Hej Forum,
mich bewegen gerade zwei Fragen, wo ich mir nicht ganz sicher bin, ob ich das darf oder nicht.
[x] mir ganz privat
[] z.B. Besuchern auf meiner Seite
privat kannst du mit den Informationen machen, was du willst (naja fast). Sofern du aber die Daten anderen zur Verfügung stellst, schlägt jedenfalls das Urheberrecht zu. Ob das im konkreten Fall erlaubt ist, hängt einerseits davon ab, in welchem Verhältnis du zum Urheber steht (eventuell Wettbewerbsverzerrung - dann wird's teuer) und wie du die Daten aufbereitest. Ist der eigentliche Urheber noch ersichtlich usw. Wenn du beispielsweise Informationen von Google oder Amazon parsen willst ist es weitaus unproblematischer als wenn du beispielsweise die Informationen der Encyclopedia Britannica aufbereitest. Jedenfalls muß die eigentliche Quelle ersichtlich sein. Das ist sogar bei GNU-Lizenzen (zB wikipedia) erforderlich.
- Darf ich mit einem selbstgeschriebenen Programm ein Serververzeichnis durchsuchen und mir alles runterladen was ich finde?
Warum denn selbst programmieren? Mit einer Batch-Datei und wget
ist das in ein paar Zeilen erledigt.
Darf ich das auch nach einer BruteForce-Methode tun?
meines Ermessens nach schon, sofern du die Urheberrechte bewahrst
spricht eigentlich nichts dagegen. Ungern gesehen und rechtlich nicht ganz klar ist die Sache, wenn du die robot.txt umgehst. Du solltest dich aber nicht wundern, wenn du - auch wenn es legal ist - schnell mal gesperrt wirst. Ich würde da sehr vorsichtig sein, und vielleicht beim eigenen Server anfangen.
ich sehe da kein Problem dabei, sofern du die Urheberrechte beachtest. Es spricht auch nichts dagegen, häufig besuchte Webseiten lokal zu spielgel. Das muß nicht zwangsweise mehr Traffic verursachen, als wie wenn du die HP oft besuchtst. Schlussendlich ist es nur eine Frage, was du damit machst - ob du offline oder online browst ist da zweitrangig. Theoretisch kannst du dir deine eigene "private" Suchmaschine bauen, wenn du tausende Seiten spiegelst und volltextindizierst. Ich persönlich habe einige GB mit gespiegelten und volltextindizierten Seiten auf meinem Computer. Im Zuge einer wissenschaftlichen Arbeit darfst du sogar im Rahmen des "Großzitats" diese Quellen weitergeben, wenn diese beispielsweise nicht mehr in dieser Form in Netz vorhanden sind. Wie sonst kannst du beweisen, daß du richtig zitierst. Es muß jedenfalls der Urheber ersichtlich sein. Sicherheitshaber würde ich sogar das Datum der Spiegelung vermerken. Ich lasse mir das mit wget in ein Log-File schreiben. Ich weiß das auf der Uni viele so arbeiten, denn wer weiß ob ein paar Tage später die Informationen überhaupt noch im Netz sind. Denn nichts ist blöder als wenn man Fußnoten in der Diplomarbeit hat, die auf nicht mehr existente Seiten verweisen.
hi,
Darf ich das auch nach einer BruteForce-Methode tun?
meines Ermessens nach schon, sofern du die Urheberrechte bewahrst
spricht eigentlich nichts dagegen.
m.E. schon.
damit erzeugst du eine menge anfragen auf ressourcen, die gar nicht vorhanden sind, und die alle mit einem 404er in meinen logs landen.
je nach umfang/dauer/geschwindigkeit könnte man das schon fast als computersabotage oder DOS-attacke bezeichnen.
ich kann mich hier Andreas nur anschließen: zum "herumspielen" und funktionen kennenlernen ist das probieren auf einem eigenen server das beste. insbesondere für einen anfänger, dessen scripte sicher auch leicht mal "ausbrechen" könnten, und dann etwas ganz anderes machen, als gedacht war. dann doch lieber im zweifelsfalle nur auf dem eigenen server ein wenig schaden angerichtet, als auf einem fremden, wo dann u.U. noch schadensersatz o.ä. gefordert werden könnte ...
gruß,
wahsaga
Darf ich das auch nach einer BruteForce-Methode tun?
meines Ermessens nach schon, sofern du die Urheberrechte bewahrst
spricht eigentlich nichts dagegen.m.E. schon.
damit erzeugst du eine menge anfragen auf ressourcen, die gar nicht vorhanden sind, und die alle mit einem 404er in meinen logs landen.je nach umfang/dauer/geschwindigkeit könnte man das schon fast als computersabotage oder DOS-attacke bezeichnen.
Da liegt jetzt offensichtlich ein Missverständnis vor. Bei unsystematischen Dateinamen ist das ganz böse. Da gebe ich dir recht. Das ist eh klar - wenigstens für mich. Ich habe von mir auf andere geschlossen, und das war falsch. Ein Beispiel aus meinem täglichen Script. Ich lade mir beispielsweise täglich das Amtsblatt der Europäischen Union herunter mit folgender Syntax:
http://europa.eu.int/eur-lex/lex/LexUriServ/site/de/oj/2005/l_002/l_00220050105de00010002.pdf
bzw.: http://..../[Jahr]/l-[fortlaufendeNR]/l-[fortlaufendeNR][Jahr][Monat][Tag]de[Startseite][Endseite].pdf
Sobald ich einen 404 HTTP Code bekomme, bricht das Scipt ab und setzt am nächsten Tag dort fort.
Sofern irgendeine Systematik dahintersteckt, spricht mE nach nichts dagegen, sofern das Skript automatisch abbricht. Ansonst hat man einem solchen Script ja eh keine Freude, wenn es Wochen läuft und nur 1-2 Dateien runterläd. Scheinbar habe ich den Begriff "Brute-Force" zu restriktiv ausgelegt und damit auch nicht ganz richtig geantwortet.
Hej ihr beiden,
je nach umfang/dauer/geschwindigkeit könnte man das schon fast als computersabotage oder DOS-attacke bezeichnen.
Da liegt jetzt offensichtlich ein Missverständnis vor. Bei unsystematischen Dateinamen ist das ganz böse.
Ups ... das war deutlich!
Okey, da dank euch allen ganz herzlich!
Beste Grüße
Biesterfeld