Robots.txt - Welche Spider Exoten ausschliessen?
Stefan
- sonstiges
0 Sönke Tesch0 Stefan0 Reiner0 Stefan
0 Sönke Tesch
0 c:)
0 Reiner
Hallo zusammen,
habe mich mal informiert, welche Spider Webmaster in ihrer Robots.txt vom Suchen ausschliessen.
Zum Beispiel bin ich auf folgende Exoten gestossen:
User-agent: RepoMonkey Bait & Tackle/v1.01
Disallow: /
User-agent: RepoMonkey
Disallow: /
User-agent: Microsoft URL Control
Disallow: /
User-agent: Openbot
Disallow: /
User-agent: URL Control
Disallow: /
User-agent: Zeus Link Scout
Disallow: /
User-agent: Zeus 32297 Webster Pro V2.9 Win32
Disallow: /
User-agent: Webster Pro
Disallow: /
Sollten man diese Spider in die Robots.Txt aufnehmen?
Was spricht dafür / dagegen?
Aufnehmen, vielleicht wegen Spamingschutz?
Danke schon mal,
Stefan
Sollten man diese Spider in die Robots.Txt aufnehmen?
Was spricht dafür / dagegen?Aufnehmen, vielleicht wegen Spamingschutz?
Oha :) Du glaubst doch nicht etwa im Ernst, daß sich irgendjemand an die robots.txt hält, wenn er Dir unbedingt Werbemüll schicken möchte oder sonstwas unfeines im Schilde führt? Es gibt keine robots-Polizei, die Verstöße gegen Deine Regelungen mit Bußgeldern straft.
Die robots.txt-Datei ist eine Empfehlung, eine Hilfestellung, um seriösen Suchmaschinen das Auslesen von unnötigen Daten zu ersparen. Ich verhindere damit beispielsweise, daß Terminseiten, die sich nur auf einen Tag beziehen, abgerufen werden, denn es macht keinen Sinn, sowas in einem Katalog zu haben - bevor die Seiten da auftauchen, sind sie möglicherweise schon längst veraltet.
Gruß,
soenk.e
Die robots.txt-Datei ist eine Empfehlung, eine Hilfestellung, um »»seriösen Suchmaschinen das Auslesen von unnötigen Daten zu ersparen. »»Ich verhindere damit beispielsweise, daß Terminseiten, die sich nur »»auf einen Tag beziehen, abgerufen werden, denn es macht keinen Sinn, »»sowas in einem Katalog zu haben - bevor die Seiten da auftauchen, »»sind sie möglicherweise schon längst veraltet.
Hi Sönke,
danke für die Info!
Nur, welche Suchmaschinen sind denn unseriös? Also, in meiner Robots.txt habe ich ca. 30 Spider die ich ausschliesse. Deren Namen sagen mir nichts (habe die Liste von einer Seite übernommen).
Nun hoffe ich, nicht all zu viele seriöse Spider auszuschliessen.
Das Spider i.d.R. sich nicht an die Einträge der Robots.txt halten, davon habe ich auch schon mal gehört.
Stefan
Die robots.txt-Datei ist eine Empfehlung, eine Hilfestellung, um »»seriösen Suchmaschinen das Auslesen von unnötigen Daten zu ersparen. »»Ich verhindere damit beispielsweise, daß Terminseiten, die sich nur »»auf einen Tag beziehen, abgerufen werden, denn es macht keinen Sinn, »»sowas in einem Katalog zu haben - bevor die Seiten da auftauchen, »»sind sie möglicherweise schon längst veraltet.
Hi Sönke,
danke für die Info!
Nur, welche Suchmaschinen sind denn unseriös? Also, in meiner Robots.txt habe ich ca. 30 Spider die ich ausschliesse. Deren Namen sagen mir nichts (habe die Liste von einer Seite übernommen).
Nun hoffe ich, nicht all zu viele seriöse Spider auszuschliessen.
Das Spider i.d.R. sich nicht an die Einträge der Robots.txt halten, davon habe ich auch schon mal gehört.
Was machst Du, wenn sich in Spider als "Netscape" ausgibt?
Gruß
Reiner
Spider als "Netscape" ausgibt?
Hi Reiner,
den lasse ich zu.
Folgende Einträge habe ich noch definiert:
User-agent: CheeseBot
Disallow: /
User-agent: LNSpiderguy
Disallow: /
User-agent: Mozilla
Disallow: /
User-agent: mozilla
Disallow: /
User-agent: mozilla/3
Disallow: /
User-agent: mozilla/4
Disallow: /
User-agent: mozilla/5
Disallow: /
User-agent: Mozilla/4.0 (compatible; MSIE 4.0; Windows NT)
Disallow: /
User-agent: Mozilla/4.0 (compatible; MSIE 4.0; Windows 95)
Disallow: /
User-agent: Mozilla/4.0 (compatible; MSIE 4.0; Windows 98)
Disallow: /
User-agent: Mozilla/4.0 (compatible; MSIE 4.0; Windows XP)
Disallow: /
User-agent: Mozilla/4.0 (compatible; MSIE 4.0; Windows 2000)
Disallow: /
Grüsse,
Stefan
Die robots.txt-Datei ist eine Empfehlung, eine Hilfestellung, um seriösen Suchmaschinen das Auslesen von unnötigen Daten zu ersparen.
Nur, welche Suchmaschinen sind denn unseriös?
Das kann Dir niemand sagen und es muß (!) Dir letztenendes auch vollkommen wurscht sein, denn ob sich jemand an Deine Empfehlungen aus der robots.txt hält oder nicht, liegt nicht in Deiner Hand.
Nochmal: Die robots.txt-Datei wird von _niemandem_ forciert. Wenn ein Spiderbetreiber sich nicht daran halten will, dann tut er es einfach nicht; er die Datei nicht einmal abzurufen, denn Du hast keinerlei Möglichkeit, ihn dazu zu zwingen (zumindest nicht, ohne Dir vorher selbst in's Bein zu schießen).
Also, in meiner Robots.txt habe ich ca. 30 Spider die ich ausschliesse. Deren Namen sagen mir nichts (habe die Liste von einer Seite übernommen).
Das ist schonmal ein sehr schlechter Ansatz..
Nun hoffe ich, nicht all zu viele seriöse Spider auszuschliessen.
..wie Du ja schon selbst bemerkst.
Die robots.txt-Datei sollte wirklich _nur_ dazu benutzt werden, Objekte, deren Indizierung keinen Sinn macht, von vornherein auszuschließen.
Die Möglichkeit, Regeln für bestimmte Spider aufzustellen, ist letztenendes nur dazu da, den Funktionsumfang der robots.txt zu komplettieren. Einen echten Nutzen hat sie nicht.
Beachte auch, daß Du die Namensangaben nicht einfach aus den Protokollen ziehen kannst, Angaben wie "RepoMonkey Bait & Tackle/v1.01" sind mit Sicherheit vollkommen nutzlos. Du wirst Dich schon vorher beim Dienstebetreiber informieren müssen unter welchem Eintragsnamen er in der robots.txt nach Regeln für sich sucht.
Und um noch das Thema "bösartige Datensammler allgemein" gleich mit zu erschlagen, unabhängig von der robots.txt: Du hast so gut wie keinerlei Möglichkeit, derartigen Datensammlern Daten von Deinen Webseiten vorzuenthalten. Die Identifizierung über die User-Agent-Angabe (die auch in den Protokollen auftaucht) ist freiwillig und mittlerweile selbst mit Standardbrowsern wie Opera und Mozilla beliebig manipulierbar (wegen der Dummheit mancher Seitenbaster ist das manchmal sogar ein Muss).
Darauf basierend möchte ich mal behaupten, daß die meisten Datensammeldienste sich sowieso nicht mit "Spambot v42.23" o.ä. identifizieren, sondern als irgendein stinknormaler Browser in Deinen Protokollen auftauchen - oder kennst Du einen Schnüffler, der sich öffentlich als Schnüffler vorstellt? "Guten Tag, ich bin Spion und möchte mal eben Ihre persönlichen Papiere kopieren"?
Womit wir dann wieder bei Deiner derzeitigen robots.txt wären: Wahrscheinlich sind sämtliche Dienste, denen Du in der robots.txt die Nicht-Durchsuchung nahelegst, völlig harmlos.
Gruß,
soenk.e
Moin!
Oha :) Du glaubst doch nicht etwa im Ernst, daß sich irgendjemand an die robots.txt hält, wenn er Dir unbedingt Werbemüll schicken möchte oder sonstwas unfeines im Schilde führt? Es gibt keine robots-Polizei, die Verstöße gegen Deine Regelungen mit Bußgeldern straft.
Genau! Um wirklich z.B. Email-Sammel-Spider auszuschließen kann man diese höchstens in die Falle locken. Also in der robots.txt ein "Disallow: /email-adressen" eintragen. Eine böse Email-Sammel-Spider wird vermutlich versuchen, in dieses Unterverzeichnis reinzugucken. Mit einem kleinen Perl-Script merkst du dir deren IP# und blockst sie danach auf deinem Server. Ok, bei "normalen" shared accounts geht das wohl nicht, es sei denn, du generierst alle Seiten dynamisch mit Perl, PHP, etc. Dann kannst du dir da ja deine eigene liste mit geblockten IP# anlegen.
Ob es allerdings den Aufwandt lohnt ist ne ganz andere Frage...
Gruß
Hi,
habe mich mal informiert, welche Spider Webmaster in ihrer Robots.txt vom Suchen ausschliessen.
Zum Beispiel bin ich auf folgende Exoten gestossen:
User-agent: RepoMonkey Bait & Tackle/v1.01
Disallow: /
User-agent: RepoMonkey
Disallow: /
User-agent: Microsoft URL Control
Disallow: /
User-agent: Openbot
Disallow: /
User-agent: URL Control
Disallow: /
User-agent: Zeus Link Scout
Disallow: /
User-agent: Zeus 32297 Webster Pro V2.9 Win32
Disallow: /
User-agent: Webster Pro
Disallow: /Sollten man diese Spider in die Robots.Txt aufnehmen?
Was spricht dafür / dagegen?Aufnehmen, vielleicht wegen Spamingschutz?
das mußt Du letztendlich selbst und vielleicht anhand _Deiner_ Logfiles entscheiden.
Gruß
Reiner