Robots.txt - Stimmt meine Erklärung? von Cheatah, 07.02.2002 13:23

SELF-Forum

Robots.txt - Stimmt meine Erklärung?

Chris 07.02.2002 11:46

html

– Informationen zu den Bewertungsregeln

robots.txt

Wie kann man den Robots (Spider) von bestimmten Webseiten und Datein ausschließen?

Manchmal tauchen Webseiten in Suchmaschinenlisten auf, welche man nicht veröffentlichen wollte.

Zum Beispiel Ordner mit Bildern, Hilfsdatein (z.B. bei Front Page, Word - Html - Seiten usw.)

und CGI - Ordner. Hier hilft eine Textdatei. Auf diese wird mittels Meta Tag verwiesen. Der

Robots wird in der Regel die Datei nutzen um nicht unnötige Daten aufnehmen zu müssen. Die Zeile

im Quelltext (Head-Bereich) sieht wie folgt aus:

Die Datei an sich:

robots.txt for http://www.irgendwas.de/
file created: 07.02.2002

User-agent: *
Disallow: /xyz/

Besagt, dass alle Robots keinen Zugriff auf das Verzeichnis "xyz" haben.

User-agent: *
Allow: /ABC/

Besagt, dass alle Robots Zugriff auf das Verzeichnis "ABC" haben.

User-agent: brunhilde
Disallow: /123/

Besagt, dass ein Robot namens "Brunhilde" keinen Zugriff auf das Verzeichnis "1

Beitrag melden

– Informationen zu den Bewertungsregeln

Robots.txt - Stimmt meine Erklärung?
Markus Thomas 07.02.2002 12:04

html
– Informationen zu den Bewertungsregeln
Hallo,

siehe http://aktuell.de.selfhtml.org/artikel/projekt/robots/index.htm

Gruß Markus
Beitrag melden

–
Informationen zu den Bewertungsregeln
1. Robots.txt - Stimmt meine Erklärung?
  
  Chris 07.02.2002 12:22
  
  html
  – Informationen zu den Bewertungsregeln
  http://selfaktuell.teamone.de/artikel/projekt/robots/index.html
  
  danke für den link. aber siehe dir bitte nochmal das zweite beispiel an. lt. dem link gibt es nur die befehle "user-agent" und "disallow".
  
  in meinem zweiten beispiel will ich allen robots gestatten, dass verzeichnis /ABC/ zu durchforsten.
  
  da es lt. dem link nur "user-agent" und "disallow" gibt, also kein "allow", dann muss ich eigentlich für das beispiel keine angabe machen, oder?
  Beitrag melden
  
  –
  Informationen zu den Bewertungsregeln
  Übersicht
  
  alle Foren
  
  SELFHTML-Forum
  
  anmelden
  
  Benutzerkonto erstellen
  
  Beitrag im Thread-Baum
  1. Robots.txt - Stimmt meine Erklärung?
    
    Markus Thomas 07.02.2002 12:30
    
    html
    
    – Informationen zu den Bewertungsregeln
    Hallo,
    
    in meinem zweiten beispiel will ich allen robots gestatten, dass verzeichnis /ABC/ zu durchforsten.
    
    Die robots durchforsten grundsätzlich alle Verzeichnisse, d.h. Du mußt lediglich die Verzeichnisse angeben, die nicht durchsucht werden sollen.
    
    Gruß Markus
    Beitrag melden
    
    –
    Informationen zu den Bewertungsregeln
    
    Übersicht
    
    alle Foren
    
    SELFHTML-Forum
    
    anmelden
    
    Benutzerkonto erstellen
    
    Beitrag im Thread-Baum
    1. Robots.txt - Stimmt meine Erklärung?
      
      Chris 07.02.2002 12:46
      
      html
      
      – Informationen zu den Bewertungsregeln
      
      :) habe es verstanden. danke dir für die Hilfe.
      
      Beitrag melden
      
      –
      Informationen zu den Bewertungsregeln
      
      Übersicht
      
      alle Foren
      
      SELFHTML-Forum
      
      anmelden
      
      Benutzerkonto erstellen
      
      Beitrag im Thread-Baum
      1. Robots.txt - Stimmt meine Erklärung?
        
        Sven Rautenberg Homepage des Autors 07.02.2002 12:59
        
        html
        
        – Informationen zu den Bewertungsregeln
        
        :) habe es verstanden. danke dir für die Hilfe.
        
        Die Spider müssen sich aber nicht an diese robots.txt halten. Wenn du Informationen nicht veröffentlichen willst, dann mach einen Paßwortschutz davor - oder laß die Seiten gleich auf deiner Festplatte zuhause.
        
        - Sven Rautenberg
        
        Beitrag melden
        
        –
        Informationen zu den Bewertungsregeln
        
        Übersicht
        
        alle Foren
        
        SELFHTML-Forum
        
        anmelden
        
        Benutzerkonto erstellen
        
        Beitrag im Thread-Baum
        
        Robots.txt - Stimmt meine Erklärung?
        
        Cheatah 07.02.2002 14:03
        
        html
        
        – Informationen zu den Bewertungsregeln
        
        Hi,
        
        Wenn du Informationen nicht veröffentlichen willst,
        
        meist geht es gar nicht darum, die Daten nicht zu veröffentlichen. Viel mehr weiß nur der Webmaster, was eigentlich indizierenswert ist - dynamische Daten gehören oft nicht dazu, oder irgendwelche Notizen o.ä. Aus diesem Grund empfiehlt er einem Robot, was er lieber ignorieren sollte, weil es die Inhalte der Suchmaschine eher verschlechtern würde.
        
        Cheatah
        
        Beitrag melden
        
        –
        Informationen zu den Bewertungsregeln
        
        Übersicht
        
        alle Foren
        
        SELFHTML-Forum
        
        anmelden
        
        Benutzerkonto erstellen
        
        Beitrag im Thread-Baum
2. Robots.txt - Stimmt meine Erklärung?
  
  Calocybe 07.02.2002 18:24
  
  html
  – Informationen zu den Bewertungsregeln
  Hi there!
  
  siehe http://aktuell.de.selfhtml.org/artikel/projekt/robots/index.htm
  
  Diesen Artikel halte ich wirklich nicht fuer empfehlenswert. Insbesondere vergisst er, hervorzuheben, dass die Disallow-Angabe sich nicht etwa Verzeichnisse oder Dateien bezieht, sondern auf den *Beginn* der Pfadangabe in der URL. Das heisst fuer die Praxis, ein Angabe wie
  Disallow: /help
  sperrt sowohl /help.html als auch /help-texts/ usw.
  Abgesehen davon finde ich den Artikel ein bisschen konfus geschrieben, naja.
  
  Besser also das Original zu Rate ziehen, welches sich unter http://www.robotstxt.org/wc/norobots.html findet. Inhaltsuebersicht auf http://www.robotstxt.org/wc/robots.html.
  
  So long
  Beitrag melden
  
  –
  Informationen zu den Bewertungsregeln
  Übersicht
  
  alle Foren
  
  SELFHTML-Forum
  
  anmelden
  
  Benutzerkonto erstellen
  
  Beitrag im Thread-Baum
Robots.txt - Stimmt meine Erklärung?
Cheatah 07.02.2002 12:57

html
– Informationen zu den Bewertungsregeln
Hi,

ergänzend zum allgemeinen Link, den Markus Dir gab:

im Quelltext (Head-Bereich) sieht wie folgt aus:
<Meta Name="Siteinfo" content="www.irgendwas.de/robots.txt">

Nein. Die URL lautet _immer_ http://dein-host/robots.txt, es gibt keine Ausnahme. Und selbst wenn man sie angeben könnte, müsstest Du eine URL nennen, kein "www.irgendwas". Eine URL beginnt mit dem Protokoll.

Die Datei an sich:

robots.txt for http://www.irgendwas.de/
file created: 07.02.2002

Das sind Kommentare, welche mit "#" eingeleitet werden müssen. Die Datei ist syntaktisch falsch.

Allow: /ABC/

Naja, und wie gesagt gibt es kein "allow", sondern nur ein "disallow".

Übrigens heißt es im Singular "der Robot" (ohne "s"), und Du solltest etwas stärker hervorheben, dass die Beachtung der robots.txt optional ist.

Cheatah
Beitrag melden

–
Informationen zu den Bewertungsregeln
1. Robots.txt - Stimmt meine Erklärung?
  
  Maja 07.02.2002 13:14
  
  html
  – Informationen zu den Bewertungsregeln
  Hi Cheatah!
  
  <Meta Name="Siteinfo" content="http://www.selfhtml.org/robots.txt">
  
  Für was ist eigentlich dieser Meta-tag? Ich dachte die robots.txt muss in das root-Verzeichnist and that it is!?
  
  Maja
  Beitrag melden
  
  –
  Informationen zu den Bewertungsregeln
  Übersicht
  
  alle Foren
  
  SELFHTML-Forum
  
  anmelden
  
  Benutzerkonto erstellen
  
  Beitrag im Thread-Baum
  1. Robots.txt - Stimmt meine Erklärung?
    
    Cheatah 07.02.2002 13:23
    
    html
    
    – Informationen zu den Bewertungsregeln
    Hi,
    
    <Meta Name="Siteinfo" content="http://www.selfhtml.org/robots.txt">
    Für was ist eigentlich dieser Meta-tag?
    
    für nichts. Ein (guter[1]) Robot wird, wenn er eine URL vorgesetzt bekommt, zunächst die /robots.txt laden und nachsehen, ob er die URL laden darf. Erst dann hat er die Möglichkeit, eine HTML-Ressource mit obigem <meta>-Tag zu erhalten - dann ist es aber zu spät.
    
    Ich dachte die robots.txt muss in das root-Verzeichnist and that it is!?
    
    Exakt.
    
    Cheatah
    
    [1] Ein nicht so guter ignoriert die robots.txt halt.
    Beitrag melden
    
    –
    Informationen zu den Bewertungsregeln
    
    Übersicht
    
    alle Foren
    
    SELFHTML-Forum
    
    anmelden
    
    Benutzerkonto erstellen
    
    Beitrag im Thread-Baum

SELFHTML Forum - Ergänzung zur Dokumentation Übersicht

Chris: Robots.txt - Stimmt meine Erklärung?