frage zur robots.txt von Stefan Einspender, 17.10.2002 21:42

frage zur robots.txt

steffen 17.10.2002 21:24

webserver

guten abend,

meine robots.txt:

User-agent: *
Disallow: /
Allow: /index.html

stimmt es, dass den spidern damit nur erlaubt wird, die index.html zu durchsuchen und keine weiteren dateien/ordner/unterordner? die datei liegt natürlich im wurzelverzeichnis.
bin mir nicht sicher ob "Allow" "Disallow" überschreiben kann.

wenn nicht - wie geht das?

gruß,
steffen

Beitrag melden

– Informationen zu den Bewertungsregeln

frage zur robots.txt
Stefan Einspender 17.10.2002 21:42

webserver
– Informationen zu den Bewertungsregeln
Hallo Steffen,

Allow: /index.html

diese Directive gibt es leider nicht, siehe auch die Erklärungen dazu
auf http://www.robotstxt.org/wc/exclusion-admin.html ganz unten.

Übrigens wäre diese Variante auch nicht sinnvoll, da ja im Normalfall
beim Aufruf http://domain.xy/ diese index.html geladen wird, obwohl
der Name nicht in der Adresszeile erscheint, ein Robot würde also
vermuten, er darf dieses Dokument nicht indizieren.

Viele Grüße,
Stefan
Beitrag melden

–
Informationen zu den Bewertungsregeln
1. frage zur robots.txt
  
  Sönke Tesch 17.10.2002 23:28
  
  webserver
  – Informationen zu den Bewertungsregeln
  Allow: /index.html
  
  diese Directive gibt es leider nicht, siehe auch die Erklärungen dazu
  auf http://www.robotstxt.org/wc/exclusion-admin.html ganz unten.
  
  Das ist nicht so ganz sicher. Auf dem gleichen Server liegt bereits seit sechs Jahren die Erweiterung, die auch ein (durchaus sehr nützliches) Allow definiert: http://www.robotstxt.org/wc/norobots-rfc.html.
  Was mit diesem Papier ist, weiß wohl kein Mensch; insbesondere, ob nicht vielleicht doch die eine oder andere Suchmaschine Allow kennt. Schaden kann's zumindest nicht, unbekannte Befehle werden ignoriert.
  
  Übrigens wäre diese Variante auch nicht sinnvoll, da ja im Normalfall
  beim Aufruf http://domain.xy/ diese index.html geladen wird, obwohl
  der Name nicht in der Adresszeile erscheint, ein Robot würde also
  vermuten, er darf dieses Dokument nicht indizieren.
  
  Vor allen Dingen macht die Reihenfolge keinen Sinn:
  
  Disallow: /
  Allow: /index.html
  
  Das erste passende Muster erhält den Zuschlag. Da die erste Zeile "Disallow /" mit dem "/" auf alles und jedes passt, werden alle folgenden garnicht mehr beachtet. Wenn überhaupt müsste die Allow-Zeile also zuerst kommen.
  
  Gruß,
  soenk.e
  Beitrag melden
  
  –
  Informationen zu den Bewertungsregeln
  Übersicht
  
  alle Foren
  
  SELFHTML-Forum
  
  anmelden
  
  Benutzerkonto erstellen
  
  Beitrag im Thread-Baum

SELFHTML Forum - Ergänzung zur Dokumentation Übersicht

steffen: frage zur robots.txt

frage zur robots.txt

frage zur robots.txt

frage zur robots.txt

frage zur robots.txt