Jones: Rauskriegen, welche Dateien in einem Webverzeichnis liegen

Hallo liebes Forum,

ich habe mal eine Verständnisfrage. Kann mir jemand erklären, wie das mit dem Zugriff auf Internetverzeichnisse funktioniert?

Grundsätzlich kann doch alles, was im Netz steht, auch gesehen, gelesen, gefunden und gedownloaded werden kann, ist eben für die Öffentlichkeit. Wer etwas ins Internet stellt, gibt den Inhalt sozusagen für die Öffentlichkeit frei. Das ist zumindest mein Verständnis.

Normalerweise gelange ich über eine Index-HTML auf die Startseite und kann dort den Links folgen. Aber wie kann ich Dateien in dem Webverzeichnis und Unterverzeichnissen finden, die nicht verlinkt sind?

Bei den meisten Seiten wird die Funktion, daß man sich den Inhalt des Verzeichnisses (Vermutlich geht das nur über FTP?) anzeigen lassen kann, abgeklempt sein. Also könnte man nur zufällig, durch Eingabe einer Zufalls-URL auf die Datei stoßen? Wie funktionieren die Spider und Bots der Suchmaschinen? Wie kriegen die raus, was in einem Verzeichnis liegt? Könnte man über einen Zufallsgenerator alle möglichen URLs antesten und die mit ERROR 404 rausfiltern? Ich kann mir nicht vorstellen, daß so vorgegangen wird.

Ich würde mir gerne den Inhalt eines Webverzeichnisses anzeigen lassen. Aber mit Tools wie HTTrack komme ich auch nicht weiter. Ich komme nicht über das Hauptverzeichnis hinaus in die Unterverzeichnisse. Ich kriege nicht mal die Dateien, die google schon längst gecached hat. Wie kann man an die robots.txt einer Seite runterladen? Ich denke mal das ist nichts illegales, weil ja im Netz steht. Wenn jemand nicht will, daß seine Dokumente gelesen werden, darf er sie eben nicht ins Internet stellen. Also müßte das doch legitim sein. Schließlich könnte ich ja genausogut über den Aufruf einer Zufallsurl nicht verlinkte Dateien entdecken.

  1. Jones,

    Beim Anfrage nach http://example.net/foo/ wird der Inhalt des Verzeichnisses foo (Existenz vorausgesetzt) angezeigt, wenn

    1. in diesem Verzeichnis keine Index-Datei vorhanden ist (üblicherweise index.html, kann aber mit DirectoryIndex verändert werden)

    2. das nicht mit -Indexes untersagt wurde.

    http://de.selfhtml.org/servercgi/server/htaccess.htm#optionen

    Könnte man über einen Zufallsgenerator alle möglichen URLs antesten und die mit ERROR 404 rausfiltern? Ich kann mir nicht vorstellen, daß so vorgegangen wird.

    Suchmaschinen folgen Links von anderen bereits indizierten Seiten.

    Live long and prosper,
    Gunnar

    --
    „Weisheit ist nicht das Ergebnis der Schulbildung, sondern des lebenslangen Versuchs, sie zu erwerben.“ (Albert Einstein)
    1. Ich kann mir nicht vorstellen, daß google nur den Links anderer Seiten folgt. Die müssen doch Robots oder Spider oder was auch immer haben, womit sie die Verzeichnisse durchscannen. Ansonsten würden bei google nur Dateien landen, die irgendwo verlinkt sind, und daß bei google niemals unverlinkte Inhalte auftauchen, möchte ich bezweifeln. Das hieße ja dann, daß man unverlinkte Inhalte wirklich nur dann sichtbar machen kann, wenn man per Zufallsgenerator alle URLs durchgeht.

      1. Hallo Freunde des gehobenen Forumsgenusses,

        Ansonsten würden bei google nur Dateien landen, die irgendwo verlinkt sind, und daß bei google niemals unverlinkte Inhalte auftauchen, möchte ich bezweifeln.

        Das darfst du ruhig glauben, das ist wirklich so.

        Das hieße ja dann, daß man unverlinkte Inhalte wirklich nur dann sichtbar machen kann, wenn man per Zufallsgenerator alle URLs durchgeht.

        Nein, das macht keine mir bekannte Suchmaschine. Das läuft anders:
        1. Besucher A besucht eine Seite, die nicht verlinkt ist (er hat die Adresse z.B. per Mail bekommen)
        2. Besucher A guckt die Seite an und folgt einem Link auf eine ganz andere Seite.
         Dabei sendet er als Referer die URL der Seite, von der er gekommen ist, also die "geheime" Seite.
        3. Der Betreiber der anderen Seite (die gut verlinkt ist) filtert aus seinen Logs alle Referrer,
         die von einer fremden Seite kommen und zeigt diese Liste als Links an.
        4. Eine Suchmaschine (bzw. ein Spider/Robot) schaut sich mal wieder diese gut verlinkte Seite an
         und folgt dem neuen Link auf die "geheime" Seite.
        5. Prompt ist die Seite nicht mehr geheim.

        Verhindern kann man das nicht, wenn jemand die Seite kennt taucht sie sehr wahrscheinlich
        auch in Suchmaschinen auf.

        Gruß
        Alexander Brock

        --
        /voodoo.css:
        #GeorgeWBush { position:absolute; bottom:-6ft; }