Frage zu den Möglichkeiten von "robots.txt"
Robert Anders
Hallo :-)
Ich habe folgendes Problem:
Auf dem von mir mitbetreutem Server, liegen alle Datein (bis auf die Grafiken) im Hauptverzeichnis.
Ich möchte nun alle, bis auf zwei, mit Einträgen in der Datei robots.txt von allen Suchrobotern fernhalten. Leider habe ich bis jetzt nur herausgefunden, wie ich einzelne Verzeichnisse "abschirmen", nicht aber, wie ich eben alle bis auf zwei schützen kann.
Weiß jemand genaueres?
Vielen Dank im Vorraus!
Gruß,
Robert Anders
Hallo Robert!
Auf dem von mir mitbetreutem Server, liegen alle Datein (bis auf die Grafiken) im Hauptverzeichnis.
Ich möchte nun alle, bis auf zwei, mit Einträgen in der Datei robots.txt von allen Suchrobotern fernhalten. Leider habe ich bis jetzt nur herausgefunden, wie ich einzelne Verzeichnisse "abschirmen", nicht aber, wie ich eben alle bis auf zwei schützen kann.
Weiß jemand genaueres?
Möchtest Du alle Ordner ausser zwei vom Robot fern halten oder nur zwei Grafiken oder Seiten ausschließen?
Wir nehmen jetzt mal an, Du hast die Ordner pic, deutsch, englisch und bestellen. pic und bestellen sollen ausgeschlossen werden.
User-agent: *
Disallow: /pic/
Disallow: /bestellen/
Einzellne Dateien, wie Bilder und *.htm, *.html können nicht ausgeschlossen werden. Es können nur Ordner ausgeschlossen werden. Einzelne Dateien müßen in ein Ordner oder ins Hauptverzeichnis, damit der Robot drüber herfallen kann.
Bis dann, André
Hi
Ich möchte nun alle, bis auf zwei, mit Einträgen in der Datei robots.txt von allen Suchrobotern fernhalten. Leider habe ich bis jetzt nur herausgefunden, wie ich einzelne Verzeichnisse "abschirmen", nicht aber, wie ich eben alle bis auf zwei schützen kann.
Einzelne Dateien lassen sich ausschliessen, indem man sie in einen Ordner packt und dann im robots.txt eintraegt:
aus http://info.webcrawler.com/mak/projects/robots/exclusion-admin.html
"This is currently a bit awkward, as there is no "Allow" field. The easy way is to put all files to be disallowed into a separate directory, say "docs", and leave the one file in the level above this directory:
User-agent: *
Disallow: /~joe/docs/
Alternatively you can explicitly disallow all disallowed pages:
User-agent: *
Disallow: /~joe/private.html
Disallow: /~joe/foo.html
Disallow: /~joe/bar.html"
Root geht nicht, da der Robot dort ansetzt und die ersten Dokumente schon gescannt hat, bevor er auf robots.txt stoesst.
Gruss, kaz