Robert Anders: Frage zu den Möglichkeiten von "robots.txt"

Hallo :-)
Ich habe folgendes Problem:
Auf dem von mir mitbetreutem Server, liegen alle Datein (bis auf die Grafiken) im Hauptverzeichnis.
Ich möchte nun alle, bis auf zwei, mit Einträgen in der Datei robots.txt von allen Suchrobotern fernhalten. Leider habe ich bis jetzt nur herausgefunden, wie ich einzelne Verzeichnisse "abschirmen", nicht aber, wie ich eben alle bis auf zwei schützen kann.
Weiß jemand genaueres?
Vielen Dank im Vorraus!

Gruß,
Robert Anders

  1. Hallo Robert!

    Auf dem von mir mitbetreutem Server, liegen alle Datein (bis auf die Grafiken) im Hauptverzeichnis.
    Ich möchte nun alle, bis auf zwei, mit Einträgen in der Datei robots.txt von allen Suchrobotern fernhalten. Leider habe ich bis jetzt nur herausgefunden, wie ich einzelne Verzeichnisse "abschirmen", nicht aber, wie ich eben alle bis auf zwei schützen kann.
    Weiß jemand genaueres?

    Möchtest Du alle Ordner ausser zwei vom Robot fern halten oder nur zwei Grafiken oder Seiten ausschließen?
    Wir nehmen jetzt mal an, Du hast die Ordner pic, deutsch, englisch und  bestellen. pic und bestellen sollen ausgeschlossen werden.

    robots.txt for http://www.site.com/

    User-agent: *
      Disallow: /pic/
      Disallow: /bestellen/

    Einzellne Dateien, wie Bilder und *.htm, *.html können nicht ausgeschlossen werden. Es können nur Ordner ausgeschlossen werden. Einzelne Dateien müßen in ein Ordner oder ins Hauptverzeichnis, damit der Robot drüber herfallen kann.

    Bis dann, André

  2. Hi

    Ich möchte nun alle, bis auf zwei, mit Einträgen in der Datei robots.txt von allen Suchrobotern fernhalten. Leider habe ich bis jetzt nur herausgefunden, wie ich einzelne Verzeichnisse "abschirmen", nicht aber, wie ich eben alle bis auf zwei schützen kann.

    Einzelne Dateien lassen sich ausschliessen, indem man sie in einen Ordner packt und dann im robots.txt eintraegt:

    aus http://info.webcrawler.com/mak/projects/robots/exclusion-admin.html

    "This is currently a bit awkward, as there is no "Allow" field. The easy way is to put all files to be disallowed into a separate directory, say "docs", and leave the one file in the level above this directory:

    User-agent: *
    Disallow: /~joe/docs/

    Alternatively you can explicitly disallow all disallowed pages:

    User-agent: *
    Disallow: /~joe/private.html
    Disallow: /~joe/foo.html
    Disallow: /~joe/bar.html"

    Root geht nicht, da der Robot dort ansetzt und die ersten Dokumente schon gescannt hat, bevor er auf robots.txt stoesst.

    Gruss, kaz