Informationen "Parsen" & Dateien Downloaden automatisieren von Erhard_Rainer, 06.01.2005 12:23

SELF-Forum

Informationen "Parsen" & Dateien Downloaden automatisieren

Biesterfeld Homepage des Autors 06.01.2005 04:15

recht

– Informationen zu den Bewertungsregeln

Hej Forum,

mich bewegen gerade zwei Fragen, wo ich mir nicht ganz sicher bin, ob ich das darf oder nicht.

Darf ich eine Internetseite, die einen Dienst in irgendeiner Form bereitstellt (Preisvergleich, Suchmaschine) mit einem selbstgeschriebenen Programm aufrufen und die Inhalte dieser Seite, also die Leistung des Dienstes herausparsen und

[] mir ganz privat
[] z.B. Besuchern auf meiner Seite

in anderer Form verfügbar machen?

Darf ich mit einem selbstgeschriebenen Programm ein Serververzeichnis durchsuchen und mir alles runterladen was ich finde? Darf ich das auch nach einer BruteForce-Methode tun? Beispiel, ich weiß im Ordner http://www.domain.tld/img befinden sich beliebig viele Grafikdateien, die zum freien Herunterladen über http://www.domain.tld/index.html angeboten sind. Die Dateien sind alle _willkürlich_ mit einer dreistelligen Nummer bezeichnet, darf ich dann einfach mittels for(int i = 1; i < 999; i++) das gesamte Verzeichnis durchsuchen und mir jede Datei die ich finde abspeichern?

Hintergrund ist wirklich nur, dass ich mich gerade etwas in die Netzwerkprogrammierung hineintaste und mir zur Übung kleine Aufgaben erdenke, die letztendlich nur Abläufe automatisieren, die ich sonst von Hand gemacht hätte (z.B. Grafiken herunterladen, Preisvergleiche personalisiert darstellen, Suchergebnisse nach persönlichen Kriterien sortieren).

Habt Dank.

Beste Grüße
Biesterfeld

--
Selfcode:
fo:| br:> n4:? ie:{ mo:} va:} de:] zu:| fl:| ss:| ls:]

Beitrag melden

– Informationen zu den Bewertungsregeln

Informationen "Parsen" & Dateien Downloaden automatisieren
MudGuard Homepage des Autors 06.01.2005 09:34

recht
+1 Informationen zu den Bewertungsregeln
Hi,
1. Darf ich eine Internetseite, die einen Dienst in irgendeiner Form bereitstellt (Preisvergleich, Suchmaschine) mit einem selbstgeschriebenen Programm aufrufen und die Inhalte dieser Seite, also die Leistung des Dienstes herausparsen und
  [] mir ganz privat
Da dürfte nichts dagegen sprechen.

[] z.B. Besuchern auf meiner Seite

Hier dürfte das Urheberrecht zuschlagen. Da dürfte es egal sein, ob Du die Informationen manuell oder automatisiert klaust und aufbereitest.
1. Darf ich mit einem selbstgeschriebenen Programm ein Serververzeichnis durchsuchen
Um das machen zu können, reicht HTTP nicht aus ...

Darf ich das auch nach einer BruteForce-Methode tun? Beispiel, ich weiß im Ordner http://www.domain.tld/img befinden sich beliebig viele Grafikdateien, die zum freien Herunterladen über http://www.domain.tld/index.html angeboten sind. Die Dateien sind alle _willkürlich_ mit einer dreistelligen Nummer bezeichnet, darf ich dann einfach mittels for(int i = 1; i < 999; i++) das gesamte Verzeichnis durchsuchen und mir jede Datei die ich finde abspeichern?

Dürfen? Kann sein, weiß ich nicht.
Wie würdest Du es finden, wenn jemand das auf Deinem Webspace macht und Dir den Traffic verursacht?

Hintergrund ist wirklich nur, dass ich mich gerade etwas in die Netzwerkprogrammierung hineintaste und mir zur Übung kleine Aufgaben erdenke, die letztendlich nur Abläufe automatisieren, die ich sonst von Hand gemacht hätte (z.B. Grafiken herunterladen, Preisvergleiche personalisiert darstellen, Suchergebnisse nach persönlichen Kriterien sortieren).

Ach so. Nutze für Deine Übungen Deinen eigenen Webserver - am einfachsten wird es, wenn dieser lokal installiert ist.
Für Dein Programm ist es - wenn es http benutzt - vollkommen unerheblich, wo der angesprochene Webserver läuft.

cu,
Andreas

--
Warum nennt sich Andreas hier MudGuard?
Fachfragen per E-Mail halte ich für unverschämt und werde entsprechende E-Mails nicht beantworten. Für Fachfragen ist das Forum da.
Beitrag melden

+1
Informationen zu den Bewertungsregeln
1. Informationen "Parsen" & Dateien Downloaden automatisieren
  
  MudGuard Homepage des Autors 06.01.2005 09:36
  
  recht
  +1 Informationen zu den Bewertungsregeln
  Hi,
  
  Ach so. Nutze für Deine Übungen Deinen eigenen Webserver - am einfachsten wird es, wenn dieser lokal installiert ist.
  Für Dein Programm ist es - wenn es http benutzt - vollkommen unerheblich, wo der angesprochene Webserver läuft.
  
  Mist, zu früh auf "Absenden" gekommen.
  Der eigene lokale Webserver hat bei sowas einen ganz wesentlichen Vorteil gegenüber irgendeinem fremden Webserver:
  Du kannst in die access.log und error.log gucken - das hilft bei der Analyse, falls Dein Programm nicht tut, was es soll.
  
  cu,
  Andreas
  
  --
  Warum nennt sich Andreas hier MudGuard?
  Fachfragen per E-Mail halte ich für unverschämt und werde entsprechende E-Mails nicht beantworten. Für Fachfragen ist das Forum da.
  Beitrag melden
  
  +1
  Informationen zu den Bewertungsregeln
  Übersicht
  
  alle Foren
  
  SELFHTML-Forum
  
  anmelden
  
  Benutzerkonto erstellen
  
  Beitrag im Thread-Baum
2. Informationen "Parsen" & Dateien Downloaden automatisieren
  
  Biesterfeld Homepage des Autors 06.01.2005 11:51
  
  recht
  – Informationen zu den Bewertungsregeln
  Hej Andreas,
  
  dank dir schonmal für Deine Antwort.
  Darf ich mit einem selbstgeschriebenen Programm ein Serververzeichnis durchsuchen
  Um das machen zu können, reicht HTTP nicht aus ...
  Sondern? Wenn ich eine willkürliche Adresse in meine Browseradressleiste einttippe und auf absenden klicke ist das doch auch http.
  
  Darf ich das auch nach einer BruteForce-Methode tun? [...]
  Dürfen? Kann sein, weiß ich nicht.
  Wie würdest Du es finden, wenn jemand das auf Deinem Webspace macht und Dir den Traffic verursacht?
  
  Wahrscheinlich nicht so doll. Andererseits, wenn ich einen Service betreibe, wo ich z.B. Grafiken zur Betrachtung und explizit zum Rechtsklick-Download anbiete muss ich genauso mit Traffic rechnen. Aber zum Verständnis: Verursacht eine http-Anfrage die ins leere führt überhaupt viel Traffic? Wenn nein, habe ich doch nur in sehr kurzer Zeit den gleichen Traffic verursacht, wie wenn ich mir einfach den gesamten Webauftritt eibmal angeschaut habe.
  
  Hintergrund ist wirklich nur, dass ich mich gerade etwas in die Netzwerkprogrammierung hineintaste
  Ach so. Nutze für Deine Übungen Deinen eigenen Webserver - am einfachsten wird es, wenn dieser lokal installiert ist.
  
  Naja es ist natürlich auch schön wenn ich mit meinen Progrämmche auch einen gewissen Nutzen verknüpfen kann, aber du hast vollkommen recht, zur Analyse ist es in der Tat sinnvoll seinen eigenen Server zu verwenden, werd ich machen.
  
  Dank dir nochmal.
  
  Beste Grüße
  Biesterfeld
  
  --
  Selfcode:
  fo:| br:> n4:? ie:{ mo:} va:} de:] zu:| fl:| ss:| ls:]
  Beitrag melden
  
  –
  Informationen zu den Bewertungsregeln
  Übersicht
  
  alle Foren
  
  SELFHTML-Forum
  
  anmelden
  
  Benutzerkonto erstellen
  
  Beitrag im Thread-Baum
  1. Informationen "Parsen" & Dateien Downloaden automatisieren
    
    MudGuard Homepage des Autors 06.01.2005 12:16
    
    recht
    
    – Informationen zu den Bewertungsregeln
    Hi,
    
    Darf ich mit einem selbstgeschriebenen Programm ein Serververzeichnis durchsuchen
    Um das machen zu können, reicht HTTP nicht aus ...
    Sondern? Wenn ich eine willkürliche Adresse in meine Browseradressleiste einttippe und auf absenden klicke ist das doch auch http.
    
    Damit kannst Du aber ein Serververzeichnis nicht durchsuchen.
    Du kannst nur einzelne Dateien abzurufen versuchen. Aber um das Verzeichnis durchsuchen zu können, müßtest Du dessen Inhalt auflisten lassen können.
    Und das geht per HTTP nicht - es gibt keine HTTP-Request-Methode "LIST_FOLDER_CONTENT".
    
    cu,
    Andreas
    
    --
    Warum nennt sich Andreas hier MudGuard?
    Fachfragen per E-Mail halte ich für unverschämt und werde entsprechende E-Mails nicht beantworten. Für Fachfragen ist das Forum da.
    Beitrag melden
    
    –
    Informationen zu den Bewertungsregeln
    
    Übersicht
    
    alle Foren
    
    SELFHTML-Forum
    
    anmelden
    
    Benutzerkonto erstellen
    
    Beitrag im Thread-Baum
    1. Informationen "Parsen" & Dateien Downloaden automatisieren
      
      Biesterfeld Homepage des Autors 06.01.2005 12:24
      
      recht
      
      – Informationen zu den Bewertungsregeln
      
      Hej Andreas,
      
      Und das geht per HTTP nicht - es gibt keine HTTP-Request-Methode "LIST_FOLDER_CONTENT".
      
      Das habe ich jetzt verstanden ;)
      
      Beste Grüße
      Biesterfeld
      
      --
      Selfcode:
      fo:| br:> n4:? ie:{ mo:} va:} de:] zu:| fl:| ss:| ls:]
      
      Beitrag melden
      
      –
      Informationen zu den Bewertungsregeln
      
      Übersicht
      
      alle Foren
      
      SELFHTML-Forum
      
      anmelden
      
      Benutzerkonto erstellen
      
      Beitrag im Thread-Baum
  2. Informationen "Parsen" & Dateien Downloaden automatisieren
    
    MudGuard Homepage des Autors 06.01.2005 12:24
    
    recht
    
    – Informationen zu den Bewertungsregeln
    Hi,
    
    Aber zum Verständnis: Verursacht eine http-Anfrage die ins leere führt überhaupt viel Traffic?
    
    Incoming: genausoviel wie eine erfolgreiche.
    Outgoing: das hängt vom Umfang der Fehlerseite ab.
    
    Ansonsten: siehe auch wahsaga, Du erzeugst viele Einträge im error.log des betroffenen Servers.
    
    Und nochwas.
    Wenn auf dem Server irgendeine bild123.jpg rumliegt, die aber (im Gegensatz zu den anderen bild001, bild002 usw.) nirgends auf dem Server verlinkt ist:
    
    ist diese dann zum Runterladen vom Serverbetreiber wirklich freigegeben?
    Wenn der Serverbetreiber wollte, daß die bild123.jpg wirklich freigegeben ist, hätte er sie doch verlinkt ...
    (ok, man könnte auch argumentieren, wenn sie nicht freigegeben sein soll, hätte er sie nicht ungeschützt auf den Server legen sollen, aber das ist m.E. eine rechtliche Grauzone ...)
    
    cu,
    Andreas
    
    --
    Warum nennt sich Andreas hier MudGuard?
    Fachfragen per E-Mail halte ich für unverschämt und werde entsprechende E-Mails nicht beantworten. Für Fachfragen ist das Forum da.
    Beitrag melden
    
    –
    Informationen zu den Bewertungsregeln
    
    Übersicht
    
    alle Foren
    
    SELFHTML-Forum
    
    anmelden
    
    Benutzerkonto erstellen
    
    Beitrag im Thread-Baum
    1. Informationen "Parsen" & Dateien Downloaden automatisieren
      
      wahsaga Homepage des Autors 06.01.2005 12:50
      
      recht
      
      – Informationen zu den Bewertungsregeln
      
      hi,
      
      Und nochwas.
      Wenn auf dem Server irgendeine bild123.jpg rumliegt, die aber (im Gegensatz zu den anderen bild001, bild002 usw.) nirgends auf dem Server verlinkt ist:
      
      ist diese dann zum Runterladen vom Serverbetreiber wirklich freigegeben?
      Wenn der Serverbetreiber wollte, daß die bild123.jpg wirklich freigegeben ist, hätte er sie doch verlinkt ...
      
      komm schon - wenn jetzt jemand einen "passwordschutz" in javascript per weiterleitung auf passwort+".html" vorschlagen würde, würdest du doch genau andersherum argumentieren, oder? ;-)
      
      (ok, man könnte auch argumentieren, wenn sie nicht freigegeben sein soll, hätte er sie nicht ungeschützt auf den Server legen sollen, aber das ist m.E. eine rechtliche Grauzone ...)
      
      sehe ich nicht so (ja, ich weiß, (deutsche) gerichte kümmern sich wenig um "gesunden menschenverstand") - die ressource wurde auf dem webserver zum abruf per HTTP bereitgestellt, ohne weitere schutzmaßnahmen. also hat auch keiner ein recht, sich zu beschweren, wenn ich sie dann auch tatsächlich abrufe.
      
      gruß,
      wahsaga
      
      --
      "Look, that's why there's rules, understand? So that you _think_ before you break 'em."
      
      Beitrag melden
      
      –
      Informationen zu den Bewertungsregeln
      
      Übersicht
      
      alle Foren
      
      SELFHTML-Forum
      
      anmelden
      
      Benutzerkonto erstellen
      
      Beitrag im Thread-Baum
      1. Informationen "Parsen" & Dateien Downloaden automatisieren
        
        MudGuard Homepage des Autors 06.01.2005 13:19
        
        recht
        
        – Informationen zu den Bewertungsregeln
        
        Hi,
        
        ist diese dann zum Runterladen vom Serverbetreiber wirklich freigegeben?
        
        komm schon - wenn jetzt jemand einen "passwordschutz" in javascript per weiterleitung auf passwort+".html" vorschlagen würde, würdest du doch genau andersherum argumentieren, oder? ;-)
        
        Du kennst die Bedeutung des "?" am Ende eines Satzes?
        
        cu,
        Andreas
        
        --
        Warum nennt sich Andreas hier MudGuard?
        Fachfragen per E-Mail halte ich für unverschämt und werde entsprechende E-Mails nicht beantworten. Für Fachfragen ist das Forum da.
        
        Beitrag melden
        
        –
        Informationen zu den Bewertungsregeln
        
        Übersicht
        
        alle Foren
        
        SELFHTML-Forum
        
        anmelden
        
        Benutzerkonto erstellen
        
        Beitrag im Thread-Baum
Informationen "Parsen" & Dateien Downloaden automatisieren
Erhard_Rainer 06.01.2005 11:38

recht
+1 Informationen zu den Bewertungsregeln
Hej Forum,

mich bewegen gerade zwei Fragen, wo ich mir nicht ganz sicher bin, ob ich das darf oder nicht.
[x] mir ganz privat
[] z.B. Besuchern auf meiner Seite
privat kannst du mit den Informationen machen, was du willst (naja fast). Sofern du aber die Daten anderen zur Verfügung stellst, schlägt jedenfalls das Urheberrecht zu. Ob das im konkreten Fall erlaubt ist, hängt einerseits davon ab, in welchem Verhältnis du zum Urheber steht (eventuell Wettbewerbsverzerrung - dann wird's teuer) und wie du die Daten aufbereitest. Ist der eigentliche Urheber noch ersichtlich usw. Wenn du beispielsweise Informationen von Google oder Amazon parsen willst ist es weitaus unproblematischer als wenn du beispielsweise die Informationen der Encyclopedia Britannica aufbereitest. Jedenfalls muß die eigentliche Quelle ersichtlich sein. Das ist sogar bei GNU-Lizenzen (zB wikipedia) erforderlich.
1. Darf ich mit einem selbstgeschriebenen Programm ein Serververzeichnis durchsuchen und mir alles runterladen was ich finde?
Warum denn selbst programmieren? Mit einer Batch-Datei und wget
ist das in ein paar Zeilen erledigt.

Darf ich das auch nach einer BruteForce-Methode tun?

meines Ermessens nach schon, sofern du die Urheberrechte bewahrst
spricht eigentlich nichts dagegen. Ungern gesehen und rechtlich nicht ganz klar ist die Sache, wenn du die robot.txt umgehst. Du solltest dich aber nicht wundern, wenn du - auch wenn es legal ist - schnell mal gesperrt wirst. Ich würde da sehr vorsichtig sein, und vielleicht beim eigenen Server anfangen.

ich sehe da kein Problem dabei, sofern du die Urheberrechte beachtest. Es spricht auch nichts dagegen, häufig besuchte Webseiten lokal zu spielgel. Das muß nicht zwangsweise mehr Traffic verursachen, als wie wenn du die HP oft besuchtst. Schlussendlich ist es nur eine Frage, was du damit machst - ob du offline oder online browst ist da zweitrangig. Theoretisch kannst du dir deine eigene "private" Suchmaschine bauen, wenn du tausende Seiten spiegelst und volltextindizierst. Ich persönlich habe einige GB mit gespiegelten und volltextindizierten Seiten auf meinem Computer. Im Zuge einer wissenschaftlichen Arbeit darfst du sogar im Rahmen des "Großzitats" diese Quellen weitergeben, wenn diese beispielsweise nicht mehr in dieser Form in Netz vorhanden sind. Wie sonst kannst du beweisen, daß du richtig zitierst. Es muß jedenfalls der Urheber ersichtlich sein. Sicherheitshaber würde ich sogar das Datum der Spiegelung vermerken. Ich lasse mir das mit wget in ein Log-File schreiben. Ich weiß das auf der Uni viele so arbeiten, denn wer weiß ob ein paar Tage später die Informationen überhaupt noch im Netz sind. Denn nichts ist blöder als wenn man Fußnoten in der Diplomarbeit hat, die auf nicht mehr existente Seiten verweisen.
Beitrag melden

+1
Informationen zu den Bewertungsregeln
1. Informationen "Parsen" & Dateien Downloaden automatisieren
  
  wahsaga Homepage des Autors 06.01.2005 11:56
  
  recht
  – Informationen zu den Bewertungsregeln
  hi,
  
  Darf ich das auch nach einer BruteForce-Methode tun?
  meines Ermessens nach schon, sofern du die Urheberrechte bewahrst
  spricht eigentlich nichts dagegen.
  
  m.E. schon.
  damit erzeugst du eine menge anfragen auf ressourcen, die gar nicht vorhanden sind, und die alle mit einem 404er in meinen logs landen.
  
  je nach umfang/dauer/geschwindigkeit könnte man das schon fast als computersabotage oder DOS-attacke bezeichnen.
  
  ich kann mich hier Andreas nur anschließen: zum "herumspielen" und funktionen kennenlernen ist das probieren auf einem eigenen server das beste. insbesondere für einen anfänger, dessen scripte sicher auch leicht mal "ausbrechen" könnten, und dann etwas ganz anderes machen, als gedacht war. dann doch lieber im zweifelsfalle nur auf dem eigenen server ein wenig schaden angerichtet, als auf einem fremden, wo dann u.U. noch schadensersatz o.ä. gefordert werden könnte ...
  
  gruß,
  wahsaga
  
  --
  "Look, that's why there's rules, understand? So that you _think_ before you break 'em."
  Beitrag melden
  
  –
  Informationen zu den Bewertungsregeln
  Übersicht
  
  alle Foren
  
  SELFHTML-Forum
  
  anmelden
  
  Benutzerkonto erstellen
  
  Beitrag im Thread-Baum
  1. Informationen "Parsen" & Dateien Downloaden automatisieren
    
    Erhard_Rainer 06.01.2005 12:23
    
    recht
    
    – Informationen zu den Bewertungsregeln
    Darf ich das auch nach einer BruteForce-Methode tun?
    meines Ermessens nach schon, sofern du die Urheberrechte bewahrst
    spricht eigentlich nichts dagegen.
    
    m.E. schon.
    damit erzeugst du eine menge anfragen auf ressourcen, die gar nicht vorhanden sind, und die alle mit einem 404er in meinen logs landen.
    
    je nach umfang/dauer/geschwindigkeit könnte man das schon fast als computersabotage oder DOS-attacke bezeichnen.
    
    Da liegt jetzt offensichtlich ein Missverständnis vor. Bei unsystematischen Dateinamen ist das ganz böse. Da gebe ich dir recht. Das ist eh klar - wenigstens für mich. Ich habe von mir auf andere geschlossen, und das war falsch. Ein Beispiel aus meinem täglichen Script. Ich lade mir beispielsweise täglich das Amtsblatt der Europäischen Union herunter mit folgender Syntax:
    http://europa.eu.int/eur-lex/lex/LexUriServ/site/de/oj/2005/l_002/l_00220050105de00010002.pdf
    bzw.: http://..../[Jahr]/l-[fortlaufendeNR]/l-[fortlaufendeNR][Jahr][Monat][Tag]de[Startseite][Endseite].pdf
    Sobald ich einen 404 HTTP Code bekomme, bricht das Scipt ab und setzt am nächsten Tag dort fort.
    Sofern irgendeine Systematik dahintersteckt, spricht mE nach nichts dagegen, sofern das Skript automatisch abbricht. Ansonst hat man einem solchen Script ja eh keine Freude, wenn es Wochen läuft und nur 1-2 Dateien runterläd. Scheinbar habe ich den Begriff "Brute-Force" zu restriktiv ausgelegt und damit auch nicht ganz richtig geantwortet.
    Beitrag melden
    
    –
    Informationen zu den Bewertungsregeln
    
    Übersicht
    
    alle Foren
    
    SELFHTML-Forum
    
    anmelden
    
    Benutzerkonto erstellen
    
    Beitrag im Thread-Baum
    1. Informationen "Parsen" & Dateien Downloaden automatisieren
      
      Biesterfeld Homepage des Autors 06.01.2005 12:31
      
      recht
      
      – Informationen zu den Bewertungsregeln
      
      Hej ihr beiden,
      
      je nach umfang/dauer/geschwindigkeit könnte man das schon fast als computersabotage oder DOS-attacke bezeichnen.
      
      Da liegt jetzt offensichtlich ein Missverständnis vor. Bei unsystematischen Dateinamen ist das ganz böse.
      
      Ups ... das war deutlich!
      Okey, da dank euch allen ganz herzlich!
      
      Beste Grüße
      Biesterfeld
      
      --
      Selfcode:
      fo:| br:> n4:? ie:{ mo:} va:} de:] zu:| fl:| ss:| ls:]
      
      Beitrag melden
      
      –
      Informationen zu den Bewertungsregeln
      
      Übersicht
      
      alle Foren
      
      SELFHTML-Forum
      
      anmelden
      
      Benutzerkonto erstellen
      
      Beitrag im Thread-Baum

SELFHTML Forum - Ergänzung zur Dokumentation Übersicht

Biesterfeld: Informationen "Parsen" & Dateien Downloaden automatisieren