steffen: frage zur robots.txt

guten abend,

meine robots.txt:

User-agent: *
Disallow: /
Allow: /index.html

stimmt es, dass den spidern damit nur erlaubt wird, die index.html zu durchsuchen und keine weiteren dateien/ordner/unterordner? die datei liegt natürlich im wurzelverzeichnis.
bin mir nicht sicher ob "Allow" "Disallow" überschreiben kann.

wenn nicht - wie geht das?

gruß,
steffen

  1. Hallo Steffen,

    Allow: /index.html

    diese Directive gibt es leider nicht, siehe auch die Erklärungen dazu
    auf http://www.robotstxt.org/wc/exclusion-admin.html ganz unten.

    Übrigens wäre diese Variante auch nicht sinnvoll, da ja im Normalfall
    beim Aufruf http://domain.xy/ diese index.html geladen wird, obwohl
    der Name nicht in der Adresszeile erscheint, ein Robot würde also
    vermuten, er darf dieses Dokument nicht indizieren.

    Viele Grüße,
    Stefan

    1. Allow: /index.html

      diese Directive gibt es leider nicht, siehe auch die Erklärungen dazu
      auf http://www.robotstxt.org/wc/exclusion-admin.html ganz unten.

      Das ist nicht so ganz sicher. Auf dem gleichen Server liegt bereits seit sechs Jahren die Erweiterung, die auch ein (durchaus sehr nützliches) Allow definiert: http://www.robotstxt.org/wc/norobots-rfc.html.
      Was mit diesem Papier ist, weiß wohl kein Mensch; insbesondere, ob nicht vielleicht doch die eine oder andere Suchmaschine Allow kennt. Schaden kann's zumindest nicht, unbekannte Befehle werden ignoriert.

      Übrigens wäre diese Variante auch nicht sinnvoll, da ja im Normalfall
      beim Aufruf http://domain.xy/ diese index.html geladen wird, obwohl
      der Name nicht in der Adresszeile erscheint, ein Robot würde also
      vermuten, er darf dieses Dokument nicht indizieren.

      Vor allen Dingen macht die Reihenfolge keinen Sinn:

      Disallow: /
        Allow: /index.html

      Das erste passende Muster erhält den Zuschlag. Da die erste Zeile "Disallow /" mit dem "/" auf alles und jedes passt, werden alle folgenden garnicht mehr beachtet. Wenn überhaupt müsste die Allow-Zeile also zuerst kommen.

      Gruß,
        soenk.e