robots.txt von Ralf Kreusel, 27.05.1999 14:47

robots.txt

Ralf 27.05.1999 09:29

Hallo,

kann mir jemand sagen, ob man im robots.txt-Dokument ohne Reue "Allow" benutzen kann, um den Crawlern der Suchmaschinen ausdrücklich die Seiten zu benennen, die sie gefälligst besuchen sollen? Oder gilt nach wie vor nur "Disallow", um die Seiten auszuschliessen, die nicht indexiert werden sollen?

Danke,
Ralf

Beitrag melden

– Informationen zu den Bewertungsregeln

robots.txt

Stefan Karzauninkat 27.05.1999 12:03

– Informationen zu den Bewertungsregeln

kann mir jemand sagen, ob man im robots.txt-Dokument ohne Reue "Allow" benutzen kann, um den Crawlern der Suchmaschinen ausdrücklich die Seiten zu benennen, die sie gefälligst besuchen sollen? Oder gilt nach wie vor nur "Disallow", um die Seiten auszuschliessen, die nicht indexiert werden sollen?

Moin,

Aus der Suchfibel:

Wenn man einen bestimmten Robot komplett von der Site fernhalten möchte, kann man das tun, indem der Name und dann kein Verzeichnis genannt wird. Wichtig ist der Slash /.

User-agent: EmailCollector
Disallow: /

Läßt man den Slash weg, so kann man die gesamte Site freigeben, in diesem Beispiel für den Robot Spider.

User-agent: Spider
Disallow:

Funktioniert auch für Subdirectories. Die Spider nehmen oft nicht alle Seiten mit, aus Kapazitätsgründen. Dann kommt es auch noch drauf an, wie weit die Seiten weg von der Einstiegsseite verlinks sind. Mehr als 2 Linktiefen und viele Robos geben auf.
Mehr Infos zu robots.txt und Deinem geschilderten Problem gibt es auf http://www.suchfibel.de/6gefundn/6frame6.htm Frisch überarbeitet.

Gruss, kaz
Beitrag melden

–
Informationen zu den Bewertungsregeln
1. robots.txt
  
  Ralf Kreusel 27.05.1999 14:47
  
  – Informationen zu den Bewertungsregeln
  
  Wenn man einen bestimmten Robot komplett von der Site fernhalten möchte, kann man das tun, indem der Name und dann kein Verzeichnis genannt wird. Wichtig ist der Slash /.
  
  User-agent: EmailCollector
  Disallow: /
  
  Läßt man den Slash weg, so kann man die gesamte Site freigeben, in diesem Beispiel für den Robot Spider.
  
  User-agent: Spider
  Disallow:
  
  Funktioniert auch für Subdirectories. Die Spider nehmen oft nicht alle Seiten mit, aus Kapazitätsgründen. Dann kommt es auch noch drauf an, wie weit die Seiten weg von der Einstiegsseite verlinks sind. Mehr als 2 Linktiefen und viele Robos geben auf.
  Mehr Infos zu robots.txt und Deinem geschilderten Problem gibt es auf http://www.suchfibel.de/6gefundn/6frame6.htm Frisch überarbeitet.
  
  Gruss, kaz
  
  Hallo kaz,
  
  ich war eben auf Deiner Suchfibelsite, danke für den Tip. Was ich aber eigentlich wissen möchte, das ist, ob der Befehl "Allow" als solcher existiert, das heisst, ob ich explizit einzelne Dateien oder Ordner zum indexieren freigeben kann. Bei unserer Website wollen wir die meissten Datein ausschliessen, und nur einige freigeben. Ich möchte vermeiden, die auszuschliessenden Dateien alle einzeln zu benennen. Ich dachte, mit "allow: /datei.htm" benenne ich erst die wenigen zu indexierenden, und dann mit "disallow:/" schliesse ich den ganzen Rest aus. Leider haben wir bei der Konstruktion des Rootordners nicht daran gedacht, die auszuschliessenden in einen eigenen Ordner zu packen. NUn ist es zu spät, die Link stehen. Ich weiss, dass es "allow" gibt, aber weisst Du zuffällig, ob man diesen Befehl uneingeschr¨nkt benutzen kann, oder wird er nicht von allen Crawlern interpretiert?
  
  Danke,
  Ralf
  Beitrag melden
  
  –
  Informationen zu den Bewertungsregeln
  Übersicht
  
  alle Foren
  
  SELFHTML-Forum
  
  anmelden
  
  Benutzerkonto erstellen
  
  Beitrag im Thread-Baum
  1. robots.txt
    
    Stefan Karzauninkat 27.05.1999 15:12
    
    – Informationen zu den Bewertungsregeln
    
    ich war eben auf Deiner Suchfibelsite, danke für den Tip. Was ich aber eigentlich wissen möchte, das ist, ob der Befehl "Allow" als solcher existiert, das heisst, ob ich explizit einzelne Dateien oder Ordner zum indexieren freigeben kann.
    
    Moin,
    
    Meines Wissens nicht. Das geht mit dem vorhandenen oder entfernten Slash /.
    
    Einzelne Dateien kann man mit metas versehen
    
    <META name="robots" content="noindex">
    <META name="robots" content="nofollow">
    
    Das wird aber nicht von allen ausgwertet. Wers tut & wer nicht, hier die Liste:
    
    http://www.suchfibel.de/3allgem/3frame6.htm
    
    Sind eher wenige. Ansonsten hilft nur ein cooles Linkverwaltungstool und aufräumen und in Ordner packen. Aber auch robots.txt ist keine Garantie fuers nicht-indexieren. Manche halten sich auch daran nicht.
    
    Gruss, kaz
    Beitrag melden
    
    –
    Informationen zu den Bewertungsregeln
    
    Übersicht
    
    alle Foren
    
    SELFHTML-Forum
    
    anmelden
    
    Benutzerkonto erstellen
    
    Beitrag im Thread-Baum

SELFHTML Forum - Ergänzung zur Dokumentation Übersicht

Ralf: robots.txt

robots.txt

robots.txt

robots.txt

robots.txt

robots.txt