Chris: Robots.txt - Stimmt meine Erklärung?

robots.txt

Wie kann man den Robots (Spider) von bestimmten Webseiten und Datein ausschließen?

Manchmal tauchen Webseiten in Suchmaschinenlisten auf, welche man nicht veröffentlichen wollte.

Zum Beispiel Ordner mit Bildern, Hilfsdatein (z.B. bei Front Page, Word - Html - Seiten usw.)

und CGI - Ordner. Hier hilft eine Textdatei. Auf diese wird mittels Meta Tag verwiesen. Der

Robots wird in der Regel die Datei nutzen um nicht unnötige Daten aufnehmen zu müssen. Die Zeile

im Quelltext (Head-Bereich) sieht wie folgt aus:

<Meta Name="Siteinfo" content="www.irgendwas.de/robots.txt">

Die Datei an sich:

robots.txt for http://www.irgendwas.de/
file created: 07.02.2002

User-agent: *
Disallow: /xyz/

Besagt, dass alle Robots keinen Zugriff auf das Verzeichnis "xyz" haben.

User-agent: *
Allow: /ABC/

Besagt, dass alle Robots Zugriff auf das Verzeichnis "ABC" haben.

User-agent: brunhilde
Disallow: /123/

Besagt, dass ein Robot namens "Brunhilde" keinen Zugriff auf das Verzeichnis "1

    1. http://selfaktuell.teamone.de/artikel/projekt/robots/index.html

      danke für den link. aber siehe dir bitte nochmal das zweite beispiel an. lt. dem link gibt es nur die befehle "user-agent" und "disallow".

      in meinem zweiten beispiel will ich allen robots gestatten, dass verzeichnis /ABC/ zu durchforsten.

      da es lt. dem link nur "user-agent" und "disallow" gibt, also kein "allow", dann muss ich eigentlich für das beispiel keine angabe machen, oder?

      1. Hallo,

        in meinem zweiten beispiel will ich allen robots gestatten, dass verzeichnis /ABC/ zu durchforsten.

        Die robots durchforsten grundsätzlich alle Verzeichnisse, d.h. Du mußt lediglich die Verzeichnisse angeben, die nicht durchsucht werden sollen.

        Gruß Markus

        1. :) habe es verstanden. danke dir für die Hilfe.

          1. :) habe es verstanden. danke dir für die Hilfe.

            Die Spider müssen sich aber nicht an diese robots.txt halten. Wenn du Informationen nicht veröffentlichen willst, dann mach einen Paßwortschutz davor - oder laß die Seiten gleich auf deiner Festplatte zuhause.

            - Sven Rautenberg

            1. Hi,

              Wenn du Informationen nicht veröffentlichen willst,

              meist geht es gar nicht darum, die Daten nicht zu veröffentlichen. Viel mehr weiß nur der Webmaster, was eigentlich indizierenswert ist - dynamische Daten gehören oft nicht dazu, oder irgendwelche Notizen o.ä. Aus diesem Grund empfiehlt er einem Robot, was er lieber ignorieren sollte, weil es die Inhalte der Suchmaschine eher verschlechtern würde.

              Cheatah

    2. Hi there!

      siehe http://aktuell.de.selfhtml.org/artikel/projekt/robots/index.htm

      Diesen Artikel halte ich wirklich nicht fuer empfehlenswert. Insbesondere vergisst er, hervorzuheben, dass die Disallow-Angabe sich nicht etwa Verzeichnisse oder Dateien bezieht, sondern auf den *Beginn* der Pfadangabe in der URL. Das heisst fuer die Praxis, ein Angabe wie
        Disallow: /help
      sperrt sowohl /help.html als auch /help-texts/ usw.
      Abgesehen davon finde ich den Artikel ein bisschen konfus geschrieben, naja.

      Besser also das Original zu Rate ziehen, welches sich unter http://www.robotstxt.org/wc/norobots.html findet. Inhaltsuebersicht auf http://www.robotstxt.org/wc/robots.html.

      So long

  1. Hi,

    ergänzend zum allgemeinen Link, den Markus Dir gab:

    im Quelltext (Head-Bereich) sieht wie folgt aus:
    <Meta Name="Siteinfo" content="www.irgendwas.de/robots.txt">

    Nein. Die URL lautet _immer_ http://dein-host/robots.txt, es gibt keine Ausnahme. Und selbst wenn man sie angeben könnte, müsstest Du eine URL nennen, kein "www.irgendwas". Eine URL beginnt mit dem Protokoll.

    Die Datei an sich:

    robots.txt for http://www.irgendwas.de/
    file created: 07.02.2002

    Das sind Kommentare, welche mit "#" eingeleitet werden müssen. Die Datei ist syntaktisch falsch.

    Allow: /ABC/

    Naja, und wie gesagt gibt es kein "allow", sondern nur ein "disallow".

    Übrigens heißt es im Singular "der Robot" (ohne "s"), und Du solltest etwas stärker hervorheben, dass die Beachtung der robots.txt optional ist.

    Cheatah

    1. Hi Cheatah!

      <Meta Name="Siteinfo" content="http://www.selfhtml.org/robots.txt">

      Für was ist eigentlich dieser Meta-tag? Ich dachte die robots.txt muss in das root-Verzeichnist and that it is!?

      Maja

      1. Hi,

        <Meta Name="Siteinfo" content="http://www.selfhtml.org/robots.txt">
        Für was ist eigentlich dieser Meta-tag?

        für nichts. Ein (guter[1]) Robot wird, wenn er eine URL vorgesetzt bekommt, zunächst die /robots.txt laden und nachsehen, ob er die URL laden darf. Erst dann hat er die Möglichkeit, eine HTML-Ressource mit obigem <meta>-Tag zu erhalten - dann ist es aber zu spät.

        Ich dachte die robots.txt muss in das root-Verzeichnist and that it is!?

        Exakt.

        Cheatah

        [1] Ein nicht so guter ignoriert die robots.txt halt.