robots.txt von Ralf Kreusel, 27.05.1999 14:47

robots.txt

Ralf Kreusel 27.05.1999 14:47

Wenn man einen bestimmten Robot komplett von der Site fernhalten möchte, kann man das tun, indem der Name und dann kein Verzeichnis genannt wird. Wichtig ist der Slash /.

User-agent: EmailCollector
Disallow: /

Läßt man den Slash weg, so kann man die gesamte Site freigeben, in diesem Beispiel für den Robot Spider.

User-agent: Spider
Disallow:

Funktioniert auch für Subdirectories. Die Spider nehmen oft nicht alle Seiten mit, aus Kapazitätsgründen. Dann kommt es auch noch drauf an, wie weit die Seiten weg von der Einstiegsseite verlinks sind. Mehr als 2 Linktiefen und viele Robos geben auf.
Mehr Infos zu robots.txt und Deinem geschilderten Problem gibt es auf http://www.suchfibel.de/6gefundn/6frame6.htm Frisch überarbeitet.

Gruss, kaz

Hallo kaz,

ich war eben auf Deiner Suchfibelsite, danke für den Tip. Was ich aber eigentlich wissen möchte, das ist, ob der Befehl "Allow" als solcher existiert, das heisst, ob ich explizit einzelne Dateien oder Ordner zum indexieren freigeben kann. Bei unserer Website wollen wir die meissten Datein ausschliessen, und nur einige freigeben. Ich möchte vermeiden, die auszuschliessenden Dateien alle einzeln zu benennen. Ich dachte, mit "allow: /datei.htm" benenne ich erst die wenigen zu indexierenden, und dann mit "disallow:/" schliesse ich den ganzen Rest aus. Leider haben wir bei der Konstruktion des Rootordners nicht daran gedacht, die auszuschliessenden in einen eigenen Ordner zu packen. NUn ist es zu spät, die Link stehen. Ich weiss, dass es "allow" gibt, aber weisst Du zuffällig, ob man diesen Befehl uneingeschr¨nkt benutzen kann, oder wird er nicht von allen Crawlern interpretiert?

Danke,
Ralf

Beitrag melden

– Informationen zu den Bewertungsregeln

SELFHTML Forum - Ergänzung zur Dokumentation Übersicht

Ralf Kreusel: robots.txt

Beitrag lesen

robots.txt

robots.txt