Robots.txt - Stimmt meine Erklärung?
Chris
- html
0 Markus Thomas0 Chris0 Markus Thomas0 Chris
0 Calocybe
0 Cheatah
robots.txt
Wie kann man den Robots (Spider) von bestimmten Webseiten und Datein ausschließen?
Manchmal tauchen Webseiten in Suchmaschinenlisten auf, welche man nicht veröffentlichen wollte.
Zum Beispiel Ordner mit Bildern, Hilfsdatein (z.B. bei Front Page, Word - Html - Seiten usw.)
und CGI - Ordner. Hier hilft eine Textdatei. Auf diese wird mittels Meta Tag verwiesen. Der
Robots wird in der Regel die Datei nutzen um nicht unnötige Daten aufnehmen zu müssen. Die Zeile
im Quelltext (Head-Bereich) sieht wie folgt aus:
<Meta Name="Siteinfo" content="www.irgendwas.de/robots.txt">
Die Datei an sich:
robots.txt for http://www.irgendwas.de/
file created: 07.02.2002
User-agent: *
Disallow: /xyz/
Besagt, dass alle Robots keinen Zugriff auf das Verzeichnis "xyz" haben.
User-agent: *
Allow: /ABC/
Besagt, dass alle Robots Zugriff auf das Verzeichnis "ABC" haben.
User-agent: brunhilde
Disallow: /123/
Besagt, dass ein Robot namens "Brunhilde" keinen Zugriff auf das Verzeichnis "1
http://selfaktuell.teamone.de/artikel/projekt/robots/index.html
danke für den link. aber siehe dir bitte nochmal das zweite beispiel an. lt. dem link gibt es nur die befehle "user-agent" und "disallow".
in meinem zweiten beispiel will ich allen robots gestatten, dass verzeichnis /ABC/ zu durchforsten.
da es lt. dem link nur "user-agent" und "disallow" gibt, also kein "allow", dann muss ich eigentlich für das beispiel keine angabe machen, oder?
Hallo,
in meinem zweiten beispiel will ich allen robots gestatten, dass verzeichnis /ABC/ zu durchforsten.
Die robots durchforsten grundsätzlich alle Verzeichnisse, d.h. Du mußt lediglich die Verzeichnisse angeben, die nicht durchsucht werden sollen.
Gruß Markus
:) habe es verstanden. danke dir für die Hilfe.
:) habe es verstanden. danke dir für die Hilfe.
Die Spider müssen sich aber nicht an diese robots.txt halten. Wenn du Informationen nicht veröffentlichen willst, dann mach einen Paßwortschutz davor - oder laß die Seiten gleich auf deiner Festplatte zuhause.
- Sven Rautenberg
Hi,
Wenn du Informationen nicht veröffentlichen willst,
meist geht es gar nicht darum, die Daten nicht zu veröffentlichen. Viel mehr weiß nur der Webmaster, was eigentlich indizierenswert ist - dynamische Daten gehören oft nicht dazu, oder irgendwelche Notizen o.ä. Aus diesem Grund empfiehlt er einem Robot, was er lieber ignorieren sollte, weil es die Inhalte der Suchmaschine eher verschlechtern würde.
Cheatah
Hi there!
siehe http://aktuell.de.selfhtml.org/artikel/projekt/robots/index.htm
Diesen Artikel halte ich wirklich nicht fuer empfehlenswert. Insbesondere vergisst er, hervorzuheben, dass die Disallow-Angabe sich nicht etwa Verzeichnisse oder Dateien bezieht, sondern auf den *Beginn* der Pfadangabe in der URL. Das heisst fuer die Praxis, ein Angabe wie
Disallow: /help
sperrt sowohl /help.html als auch /help-texts/ usw.
Abgesehen davon finde ich den Artikel ein bisschen konfus geschrieben, naja.
Besser also das Original zu Rate ziehen, welches sich unter http://www.robotstxt.org/wc/norobots.html findet. Inhaltsuebersicht auf http://www.robotstxt.org/wc/robots.html.
So long
Hi,
ergänzend zum allgemeinen Link, den Markus Dir gab:
im Quelltext (Head-Bereich) sieht wie folgt aus:
<Meta Name="Siteinfo" content="www.irgendwas.de/robots.txt">
Nein. Die URL lautet _immer_ http://dein-host/robots.txt, es gibt keine Ausnahme. Und selbst wenn man sie angeben könnte, müsstest Du eine URL nennen, kein "www.irgendwas". Eine URL beginnt mit dem Protokoll.
Die Datei an sich:
robots.txt for http://www.irgendwas.de/
file created: 07.02.2002
Das sind Kommentare, welche mit "#" eingeleitet werden müssen. Die Datei ist syntaktisch falsch.
Allow: /ABC/
Naja, und wie gesagt gibt es kein "allow", sondern nur ein "disallow".
Übrigens heißt es im Singular "der Robot" (ohne "s"), und Du solltest etwas stärker hervorheben, dass die Beachtung der robots.txt optional ist.
Cheatah
Hi Cheatah!
<Meta Name="Siteinfo" content="http://www.selfhtml.org/robots.txt">
Für was ist eigentlich dieser Meta-tag? Ich dachte die robots.txt muss in das root-Verzeichnist and that it is!?
Maja
Hi,
<Meta Name="Siteinfo" content="http://www.selfhtml.org/robots.txt">
Für was ist eigentlich dieser Meta-tag?
für nichts. Ein (guter[1]) Robot wird, wenn er eine URL vorgesetzt bekommt, zunächst die /robots.txt laden und nachsehen, ob er die URL laden darf. Erst dann hat er die Möglichkeit, eine HTML-Ressource mit obigem <meta>-Tag zu erhalten - dann ist es aber zu spät.
Ich dachte die robots.txt muss in das root-Verzeichnist and that it is!?
Exakt.
Cheatah
[1] Ein nicht so guter ignoriert die robots.txt halt.