suit: robots.txt , wildcards und Reihenfolge

Beitrag lesen

Ist die folgende robots.txt Datei also geeignet, den spidern mitzuteilen, dass diese Dateien nicht mitindexiert werden sollten?

User-agent: *
Disallow: /kram/
Disallow: /test*
Allow: /

Damit verbietest du /kram/ (und darunter) und alles was mit /test* beginnt.

Danach gibst du für sämtliche Crawler die etwas mit Allow anfangen können alles wieder frei.

Diese Variante ist also imho ungeeignet.

Aha, die Reihenfolge spielt also eine Rolle. Und Wildcards funktionieren wie erwartet. Aber zu "Allow" ist ja im Netz verschiedenes zu finden von "überflüssig" über "nicht unterstützt" bis "für Google robots nützlich".

Kurz: es ist nicht Standardkonfom, einige Robots nutzen es aber trotzdem.

Google (googlebot) und Yahoo (Slurp!) gehören dazu.

Wie wäre es besser:

A)
User-agent: *
Allow: /
Disallow: /kram/
Disallow: /test*

oder

B)
User-agent: *
Disallow: /kram/
Disallow: /test*

B) da das Allow hier augenscheinlich hier ohnehin keinen Zweck erfüllt.

Insgesamt scheint mir "Allow" doch von eher zweifelhaftem Wert zu sein.

Für bestimmte konstrukte ist es durchaus eine Arbeitserleichterung - aber doch eher für Unterverzeichnise als für das Stammverzeichnis.