Sönke Tesch: frage zur robots.txt

Beitrag lesen

Allow: /index.html

diese Directive gibt es leider nicht, siehe auch die Erklärungen dazu
auf http://www.robotstxt.org/wc/exclusion-admin.html ganz unten.

Das ist nicht so ganz sicher. Auf dem gleichen Server liegt bereits seit sechs Jahren die Erweiterung, die auch ein (durchaus sehr nützliches) Allow definiert: http://www.robotstxt.org/wc/norobots-rfc.html.
Was mit diesem Papier ist, weiß wohl kein Mensch; insbesondere, ob nicht vielleicht doch die eine oder andere Suchmaschine Allow kennt. Schaden kann's zumindest nicht, unbekannte Befehle werden ignoriert.

Übrigens wäre diese Variante auch nicht sinnvoll, da ja im Normalfall
beim Aufruf http://domain.xy/ diese index.html geladen wird, obwohl
der Name nicht in der Adresszeile erscheint, ein Robot würde also
vermuten, er darf dieses Dokument nicht indizieren.

Vor allen Dingen macht die Reihenfolge keinen Sinn:

Disallow: /
  Allow: /index.html

Das erste passende Muster erhält den Zuschlag. Da die erste Zeile "Disallow /" mit dem "/" auf alles und jedes passt, werden alle folgenden garnicht mehr beachtet. Wenn überhaupt müsste die Allow-Zeile also zuerst kommen.

Gruß,
  soenk.e