Robots.txt - Welche Spider Exoten ausschliessen? von Stefan, 03.05.2003 13:16

Robots.txt - Welche Spider Exoten ausschliessen?

Stefan 03.05.2003 12:49

sonstiges

Hallo zusammen,

habe mich mal informiert, welche Spider Webmaster in ihrer Robots.txt vom Suchen ausschliessen.

Zum Beispiel bin ich auf folgende Exoten gestossen:

User-agent: RepoMonkey Bait & Tackle/v1.01
Disallow: /
User-agent: RepoMonkey
Disallow: /
User-agent: Microsoft URL Control
Disallow: /
User-agent: Openbot
Disallow: /
User-agent: URL Control
Disallow: /
User-agent: Zeus Link Scout
Disallow: /
User-agent: Zeus 32297 Webster Pro V2.9 Win32
Disallow: /
User-agent: Webster Pro
Disallow: /

Sollten man diese Spider in die Robots.Txt aufnehmen?
Was spricht dafür / dagegen?

Aufnehmen, vielleicht wegen Spamingschutz?

Danke schon mal,

Stefan

Beitrag melden

– Informationen zu den Bewertungsregeln

Robots.txt - Welche Spider Exoten ausschliessen?
Sönke Tesch 03.05.2003 12:58

sonstiges
– Informationen zu den Bewertungsregeln
Sollten man diese Spider in die Robots.Txt aufnehmen?
Was spricht dafür / dagegen?

Aufnehmen, vielleicht wegen Spamingschutz?

Oha :) Du glaubst doch nicht etwa im Ernst, daß sich irgendjemand an die robots.txt hält, wenn er Dir unbedingt Werbemüll schicken möchte oder sonstwas unfeines im Schilde führt? Es gibt keine robots-Polizei, die Verstöße gegen Deine Regelungen mit Bußgeldern straft.

Die robots.txt-Datei ist eine Empfehlung, eine Hilfestellung, um seriösen Suchmaschinen das Auslesen von unnötigen Daten zu ersparen. Ich verhindere damit beispielsweise, daß Terminseiten, die sich nur auf einen Tag beziehen, abgerufen werden, denn es macht keinen Sinn, sowas in einem Katalog zu haben - bevor die Seiten da auftauchen, sind sie möglicherweise schon längst veraltet.

Gruß,
soenk.e
Beitrag melden

–
Informationen zu den Bewertungsregeln
1. Robots.txt - Welche Spider Exoten ausschliessen?
  
  Stefan 03.05.2003 13:16
  
  sonstiges
  – Informationen zu den Bewertungsregeln
  Die robots.txt-Datei ist eine Empfehlung, eine Hilfestellung, um »»seriösen Suchmaschinen das Auslesen von unnötigen Daten zu ersparen. »»Ich verhindere damit beispielsweise, daß Terminseiten, die sich nur »»auf einen Tag beziehen, abgerufen werden, denn es macht keinen Sinn, »»sowas in einem Katalog zu haben - bevor die Seiten da auftauchen, »»sind sie möglicherweise schon längst veraltet.
  
  Hi Sönke,
  
  danke für die Info!
  
  Nur, welche Suchmaschinen sind denn unseriös? Also, in meiner Robots.txt habe ich ca. 30 Spider die ich ausschliesse. Deren Namen sagen mir nichts (habe die Liste von einer Seite übernommen).
  
  Nun hoffe ich, nicht all zu viele seriöse Spider auszuschliessen.
  
  Das Spider i.d.R. sich nicht an die Einträge der Robots.txt halten, davon habe ich auch schon mal gehört.
  
  Stefan
  Beitrag melden
  
  –
  Informationen zu den Bewertungsregeln
  Übersicht
  
  alle Foren
  
  SELFHTML-Forum
  
  anmelden
  
  Benutzerkonto erstellen
  
  Beitrag im Thread-Baum
  1. Robots.txt - Welche Spider Exoten ausschliessen?
    
    Reiner Homepage des Autors 03.05.2003 13:18
    
    sonstiges
    
    – Informationen zu den Bewertungsregeln
    Die robots.txt-Datei ist eine Empfehlung, eine Hilfestellung, um »»seriösen Suchmaschinen das Auslesen von unnötigen Daten zu ersparen. »»Ich verhindere damit beispielsweise, daß Terminseiten, die sich nur »»auf einen Tag beziehen, abgerufen werden, denn es macht keinen Sinn, »»sowas in einem Katalog zu haben - bevor die Seiten da auftauchen, »»sind sie möglicherweise schon längst veraltet.
    
    Hi Sönke,
    
    danke für die Info!
    
    Nur, welche Suchmaschinen sind denn unseriös? Also, in meiner Robots.txt habe ich ca. 30 Spider die ich ausschliesse. Deren Namen sagen mir nichts (habe die Liste von einer Seite übernommen).
    
    Nun hoffe ich, nicht all zu viele seriöse Spider auszuschliessen.
    
    Das Spider i.d.R. sich nicht an die Einträge der Robots.txt halten, davon habe ich auch schon mal gehört.
    
    Was machst Du, wenn sich in Spider als "Netscape" ausgibt?
    
    Gruß
    Reiner
    Beitrag melden
    
    –
    Informationen zu den Bewertungsregeln
    
    Übersicht
    
    alle Foren
    
    SELFHTML-Forum
    
    anmelden
    
    Benutzerkonto erstellen
    
    Beitrag im Thread-Baum
    1. Robots.txt - Welche Spider Exoten ausschliessen?
      
      Stefan 03.05.2003 13:22
      
      sonstiges
      
      – Informationen zu den Bewertungsregeln
      
      Spider als "Netscape" ausgibt?
      
      Hi Reiner,
      
      den lasse ich zu.
      
      Folgende Einträge habe ich noch definiert:
      
      User-agent: CheeseBot
      Disallow: /
      User-agent: LNSpiderguy
      Disallow: /
      User-agent: Mozilla
      Disallow: /
      User-agent: mozilla
      Disallow: /
      User-agent: mozilla/3
      Disallow: /
      User-agent: mozilla/4
      Disallow: /
      User-agent: mozilla/5
      Disallow: /
      User-agent: Mozilla/4.0 (compatible; MSIE 4.0; Windows NT)
      Disallow: /
      User-agent: Mozilla/4.0 (compatible; MSIE 4.0; Windows 95)
      Disallow: /
      User-agent: Mozilla/4.0 (compatible; MSIE 4.0; Windows 98)
      Disallow: /
      User-agent: Mozilla/4.0 (compatible; MSIE 4.0; Windows XP)
      Disallow: /
      User-agent: Mozilla/4.0 (compatible; MSIE 4.0; Windows 2000)
      Disallow: /
      
      Grüsse,
      
      Stefan
      
      Beitrag melden
      
      –
      Informationen zu den Bewertungsregeln
      
      Übersicht
      
      alle Foren
      
      SELFHTML-Forum
      
      anmelden
      
      Benutzerkonto erstellen
      
      Beitrag im Thread-Baum
  2. Robots.txt - Welche Spider Exoten ausschliessen?
    
    Sönke Tesch 03.05.2003 14:01
    
    sonstiges
    
    – Informationen zu den Bewertungsregeln
    Die robots.txt-Datei ist eine Empfehlung, eine Hilfestellung, um seriösen Suchmaschinen das Auslesen von unnötigen Daten zu ersparen.
    
    Nur, welche Suchmaschinen sind denn unseriös?
    
    Das kann Dir niemand sagen und es muß (!) Dir letztenendes auch vollkommen wurscht sein, denn ob sich jemand an Deine Empfehlungen aus der robots.txt hält oder nicht, liegt nicht in Deiner Hand.
    
    Nochmal: Die robots.txt-Datei wird von _niemandem_ forciert. Wenn ein Spiderbetreiber sich nicht daran halten will, dann tut er es einfach nicht; er die Datei nicht einmal abzurufen, denn Du hast keinerlei Möglichkeit, ihn dazu zu zwingen (zumindest nicht, ohne Dir vorher selbst in's Bein zu schießen).
    
    Also, in meiner Robots.txt habe ich ca. 30 Spider die ich ausschliesse. Deren Namen sagen mir nichts (habe die Liste von einer Seite übernommen).
    
    Das ist schonmal ein sehr schlechter Ansatz..
    
    Nun hoffe ich, nicht all zu viele seriöse Spider auszuschliessen.
    
    ..wie Du ja schon selbst bemerkst.
    
    Die robots.txt-Datei sollte wirklich _nur_ dazu benutzt werden, Objekte, deren Indizierung keinen Sinn macht, von vornherein auszuschließen.
    Die Möglichkeit, Regeln für bestimmte Spider aufzustellen, ist letztenendes nur dazu da, den Funktionsumfang der robots.txt zu komplettieren. Einen echten Nutzen hat sie nicht.
    
    Beachte auch, daß Du die Namensangaben nicht einfach aus den Protokollen ziehen kannst, Angaben wie "RepoMonkey Bait & Tackle/v1.01" sind mit Sicherheit vollkommen nutzlos. Du wirst Dich schon vorher beim Dienstebetreiber informieren müssen unter welchem Eintragsnamen er in der robots.txt nach Regeln für sich sucht.
    
    Und um noch das Thema "bösartige Datensammler allgemein" gleich mit zu erschlagen, unabhängig von der robots.txt: Du hast so gut wie keinerlei Möglichkeit, derartigen Datensammlern Daten von Deinen Webseiten vorzuenthalten. Die Identifizierung über die User-Agent-Angabe (die auch in den Protokollen auftaucht) ist freiwillig und mittlerweile selbst mit Standardbrowsern wie Opera und Mozilla beliebig manipulierbar (wegen der Dummheit mancher Seitenbaster ist das manchmal sogar ein Muss).
    
    Darauf basierend möchte ich mal behaupten, daß die meisten Datensammeldienste sich sowieso nicht mit "Spambot v42.23" o.ä. identifizieren, sondern als irgendein stinknormaler Browser in Deinen Protokollen auftauchen - oder kennst Du einen Schnüffler, der sich öffentlich als Schnüffler vorstellt? "Guten Tag, ich bin Spion und möchte mal eben Ihre persönlichen Papiere kopieren"?
    
    Womit wir dann wieder bei Deiner derzeitigen robots.txt wären: Wahrscheinlich sind sämtliche Dienste, denen Du in der robots.txt die Nicht-Durchsuchung nahelegst, völlig harmlos.
    
    Gruß,
    soenk.e
    Beitrag melden
    
    –
    Informationen zu den Bewertungsregeln
    
    Übersicht
    
    alle Foren
    
    SELFHTML-Forum
    
    anmelden
    
    Benutzerkonto erstellen
    
    Beitrag im Thread-Baum
2. Robots.txt - Welche Spider Exoten ausschliessen?
  
  c:) 03.05.2003 17:05
  
  sonstiges
  – Informationen zu den Bewertungsregeln
  Moin!
  
  Oha :) Du glaubst doch nicht etwa im Ernst, daß sich irgendjemand an die robots.txt hält, wenn er Dir unbedingt Werbemüll schicken möchte oder sonstwas unfeines im Schilde führt? Es gibt keine robots-Polizei, die Verstöße gegen Deine Regelungen mit Bußgeldern straft.
  
  Genau! Um wirklich z.B. Email-Sammel-Spider auszuschließen kann man diese höchstens in die Falle locken. Also in der robots.txt ein "Disallow: /email-adressen" eintragen. Eine böse Email-Sammel-Spider wird vermutlich versuchen, in dieses Unterverzeichnis reinzugucken. Mit einem kleinen Perl-Script merkst du dir deren IP# und blockst sie danach auf deinem Server. Ok, bei "normalen" shared accounts geht das wohl nicht, es sei denn, du generierst alle Seiten dynamisch mit Perl, PHP, etc. Dann kannst du dir da ja deine eigene liste mit geblockten IP# anlegen.
  
  Ob es allerdings den Aufwandt lohnt ist ne ganz andere Frage...
  
  Gruß
  Beitrag melden
  
  –
  Informationen zu den Bewertungsregeln
  Übersicht
  
  alle Foren
  
  SELFHTML-Forum
  
  anmelden
  
  Benutzerkonto erstellen
  
  Beitrag im Thread-Baum
Robots.txt - Welche Spider Exoten ausschliessen?
Reiner Homepage des Autors 03.05.2003 12:59

sonstiges
– Informationen zu den Bewertungsregeln
Hi,

habe mich mal informiert, welche Spider Webmaster in ihrer Robots.txt vom Suchen ausschliessen.

Zum Beispiel bin ich auf folgende Exoten gestossen:

User-agent: RepoMonkey Bait & Tackle/v1.01
Disallow: /
User-agent: RepoMonkey
Disallow: /
User-agent: Microsoft URL Control
Disallow: /
User-agent: Openbot
Disallow: /
User-agent: URL Control
Disallow: /
User-agent: Zeus Link Scout
Disallow: /
User-agent: Zeus 32297 Webster Pro V2.9 Win32
Disallow: /
User-agent: Webster Pro
Disallow: /

Sollten man diese Spider in die Robots.Txt aufnehmen?
Was spricht dafür / dagegen?

Aufnehmen, vielleicht wegen Spamingschutz?

das mußt Du letztendlich selbst und vielleicht anhand _Deiner_ Logfiles entscheiden.

Gruß
Reiner
Beitrag melden

–
Informationen zu den Bewertungsregeln

SELFHTML Forum - Ergänzung zur Dokumentation Übersicht

Stefan: Robots.txt - Welche Spider Exoten ausschliessen?