Rauskriegen, welche Dateien in einem Webverzeichnis liegen von Gunnar Bittersmann, 26.08.2005 19:30

Rauskriegen, welche Dateien in einem Webverzeichnis liegen

Jones 26.08.2005 19:09

html

Hallo liebes Forum,

ich habe mal eine Verständnisfrage. Kann mir jemand erklären, wie das mit dem Zugriff auf Internetverzeichnisse funktioniert?

Grundsätzlich kann doch alles, was im Netz steht, auch gesehen, gelesen, gefunden und gedownloaded werden kann, ist eben für die Öffentlichkeit. Wer etwas ins Internet stellt, gibt den Inhalt sozusagen für die Öffentlichkeit frei. Das ist zumindest mein Verständnis.

Normalerweise gelange ich über eine Index-HTML auf die Startseite und kann dort den Links folgen. Aber wie kann ich Dateien in dem Webverzeichnis und Unterverzeichnissen finden, die nicht verlinkt sind?

Bei den meisten Seiten wird die Funktion, daß man sich den Inhalt des Verzeichnisses (Vermutlich geht das nur über FTP?) anzeigen lassen kann, abgeklempt sein. Also könnte man nur zufällig, durch Eingabe einer Zufalls-URL auf die Datei stoßen? Wie funktionieren die Spider und Bots der Suchmaschinen? Wie kriegen die raus, was in einem Verzeichnis liegt? Könnte man über einen Zufallsgenerator alle möglichen URLs antesten und die mit ERROR 404 rausfiltern? Ich kann mir nicht vorstellen, daß so vorgegangen wird.

Ich würde mir gerne den Inhalt eines Webverzeichnisses anzeigen lassen. Aber mit Tools wie HTTrack komme ich auch nicht weiter. Ich komme nicht über das Hauptverzeichnis hinaus in die Unterverzeichnisse. Ich kriege nicht mal die Dateien, die google schon längst gecached hat. Wie kann man an die robots.txt einer Seite runterladen? Ich denke mal das ist nichts illegales, weil ja im Netz steht. Wenn jemand nicht will, daß seine Dokumente gelesen werden, darf er sie eben nicht ins Internet stellen. Also müßte das doch legitim sein. Schließlich könnte ich ja genausogut über den Aufruf einer Zufallsurl nicht verlinkte Dateien entdecken.

Beitrag melden

– Informationen zu den Bewertungsregeln

Rauskriegen, welche Dateien in einem Webverzeichnis liegen
Gunnar Bittersmann Homepage des Autors 26.08.2005 19:30

html
– Informationen zu den Bewertungsregeln
Jones,

Beim Anfrage nach http://example.net/foo/ wird der Inhalt des Verzeichnisses foo (Existenz vorausgesetzt) angezeigt, wenn

1. in diesem Verzeichnis keine Index-Datei vorhanden ist (üblicherweise index.html, kann aber mit DirectoryIndex verändert werden)

2. das nicht mit -Indexes untersagt wurde.

http://de.selfhtml.org/servercgi/server/htaccess.htm#optionen

Könnte man über einen Zufallsgenerator alle möglichen URLs antesten und die mit ERROR 404 rausfiltern? Ich kann mir nicht vorstellen, daß so vorgegangen wird.

Suchmaschinen folgen Links von anderen bereits indizierten Seiten.

Live long and prosper,
Gunnar

--
„Weisheit ist nicht das Ergebnis der Schulbildung, sondern des lebenslangen Versuchs, sie zu erwerben.“ (Albert Einstein)
Beitrag melden

–
Informationen zu den Bewertungsregeln
1. Rauskriegen, welche Dateien in einem Webverzeichnis liegen
  
  Jones 26.08.2005 20:00
  
  html
  – Informationen zu den Bewertungsregeln
  Ich kann mir nicht vorstellen, daß google nur den Links anderer Seiten folgt. Die müssen doch Robots oder Spider oder was auch immer haben, womit sie die Verzeichnisse durchscannen. Ansonsten würden bei google nur Dateien landen, die irgendwo verlinkt sind, und daß bei google niemals unverlinkte Inhalte auftauchen, möchte ich bezweifeln. Das hieße ja dann, daß man unverlinkte Inhalte wirklich nur dann sichtbar machen kann, wenn man per Zufallsgenerator alle URLs durchgeht.
  Beitrag melden
  
  –
  Informationen zu den Bewertungsregeln
  Übersicht
  
  alle Foren
  
  SELFHTML-Forum
  
  anmelden
  
  Benutzerkonto erstellen
  
  Beitrag im Thread-Baum
  1. Rauskriegen, welche Dateien in einem Webverzeichnis liegen
    
    Alexander Brock Homepage des Autors 26.08.2005 20:08
    
    html
    
    – Informationen zu den Bewertungsregeln
    Hallo Freunde des gehobenen Forumsgenusses,
    
    Ansonsten würden bei google nur Dateien landen, die irgendwo verlinkt sind, und daß bei google niemals unverlinkte Inhalte auftauchen, möchte ich bezweifeln.
    
    Das darfst du ruhig glauben, das ist wirklich so.
    
    Das hieße ja dann, daß man unverlinkte Inhalte wirklich nur dann sichtbar machen kann, wenn man per Zufallsgenerator alle URLs durchgeht.
    
    Nein, das macht keine mir bekannte Suchmaschine. Das läuft anders:
    1. Besucher A besucht eine Seite, die nicht verlinkt ist (er hat die Adresse z.B. per Mail bekommen)
    2. Besucher A guckt die Seite an und folgt einem Link auf eine ganz andere Seite.
    Dabei sendet er als Referer die URL der Seite, von der er gekommen ist, also die "geheime" Seite.
    3. Der Betreiber der anderen Seite (die gut verlinkt ist) filtert aus seinen Logs alle Referrer,
    die von einer fremden Seite kommen und zeigt diese Liste als Links an.
    4. Eine Suchmaschine (bzw. ein Spider/Robot) schaut sich mal wieder diese gut verlinkte Seite an
    und folgt dem neuen Link auf die "geheime" Seite.
    5. Prompt ist die Seite nicht mehr geheim.
    
    Verhindern kann man das nicht, wenn jemand die Seite kennt taucht sie sehr wahrscheinlich
    auch in Suchmaschinen auf.
    
    Gruß
    Alexander Brock
    
    --
    /voodoo.css:
    #GeorgeWBush { position:absolute; bottom:-6ft; }
    Beitrag melden
    
    –
    Informationen zu den Bewertungsregeln
    
    Übersicht
    
    alle Foren
    
    SELFHTML-Forum
    
    anmelden
    
    Benutzerkonto erstellen
    
    Beitrag im Thread-Baum

SELFHTML Forum - Ergänzung zur Dokumentation Übersicht

Jones: Rauskriegen, welche Dateien in einem Webverzeichnis liegen