frage zur robots.txt
steffen
- webserver
guten abend,
meine robots.txt:
User-agent: *
Disallow: /
Allow: /index.html
stimmt es, dass den spidern damit nur erlaubt wird, die index.html zu durchsuchen und keine weiteren dateien/ordner/unterordner? die datei liegt natürlich im wurzelverzeichnis.
bin mir nicht sicher ob "Allow" "Disallow" überschreiben kann.
wenn nicht - wie geht das?
gruß,
steffen
Hallo Steffen,
Allow: /index.html
diese Directive gibt es leider nicht, siehe auch die Erklärungen dazu
auf http://www.robotstxt.org/wc/exclusion-admin.html ganz unten.
Übrigens wäre diese Variante auch nicht sinnvoll, da ja im Normalfall
beim Aufruf http://domain.xy/ diese index.html geladen wird, obwohl
der Name nicht in der Adresszeile erscheint, ein Robot würde also
vermuten, er darf dieses Dokument nicht indizieren.
Viele Grüße,
Stefan
Allow: /index.html
diese Directive gibt es leider nicht, siehe auch die Erklärungen dazu
auf http://www.robotstxt.org/wc/exclusion-admin.html ganz unten.
Das ist nicht so ganz sicher. Auf dem gleichen Server liegt bereits seit sechs Jahren die Erweiterung, die auch ein (durchaus sehr nützliches) Allow definiert: http://www.robotstxt.org/wc/norobots-rfc.html.
Was mit diesem Papier ist, weiß wohl kein Mensch; insbesondere, ob nicht vielleicht doch die eine oder andere Suchmaschine Allow kennt. Schaden kann's zumindest nicht, unbekannte Befehle werden ignoriert.
Übrigens wäre diese Variante auch nicht sinnvoll, da ja im Normalfall
beim Aufruf http://domain.xy/ diese index.html geladen wird, obwohl
der Name nicht in der Adresszeile erscheint, ein Robot würde also
vermuten, er darf dieses Dokument nicht indizieren.
Vor allen Dingen macht die Reihenfolge keinen Sinn:
Disallow: /
Allow: /index.html
Das erste passende Muster erhält den Zuschlag. Da die erste Zeile "Disallow /" mit dem "/" auf alles und jedes passt, werden alle folgenden garnicht mehr beachtet. Wenn überhaupt müsste die Allow-Zeile also zuerst kommen.
Gruß,
soenk.e