ich habe aus den Beiträgen gelernt, dass ich gar kein disallow verwende. den böswilligen bots möchte ich nicht auch noch Tipps geben, wie sie gezielt suchen könnten.
Meines Erachtens interessieren sich Bots eher nicht so für die robots.txt, das machen echte Menschen. In der robots.txt finden sich sehr individuelle Informationen, die für einen Bot, also einer Millionen von Webseiten verarbeitenden Software, kaum Nutzen haben, eben weil sie nicht allgemeingültig sind und somit kaum für die automatisierte Verarbeitung taugen.
Man möge sich mal selbst überlegen: Was soll ich als Bot mit der Information "Disallow: /badewanne" anfangen? Hui, da versteckt einer seine Badewanne? Welchen Wert hat diese Information? Sie sagt doch noch absolut nichts darüber aus, ob da eine veraltete Blog-Software hintersteckt oder E-Mail-Adressen, die man verkaufen könnte. Sich auf sowas zu verlassen ist doch nicht einmal die Nadel im Heuhaufen. Das machen bestenfalls Anfänger, Skript-Kiddies, nicht die tatsächlich gefährlichen Leute, diejenigen, die Geld verdienen wollen, für die Arbeitszeit aber Kosten sind, entgangener Verdienst, die mit entsprechendem willen und vor allem Ausdauer an die Sache rangehen.
Also: Bots suchen in aller Regel nach Sicherheitslücken bekannter Software oder aber nach Möglichkeiten, irgendwen mit Spam zuzumüllen. Das sind die Bereiche, die sich zu Geld machen lassen.
Diese Suche unternejmen sie aber, gerade bei Sicherheitslücken, entweder gezielt, denn warum in der robots.txt nach "Disallow: /wp-admin/" suchen, wenn man das Verzeichnis genauso gut direkt abrufen kann? Das Ergebnis ist dasselbe, gefunden oder nicht gefunden, aber der Direktabruf spart 50% der Arbeitslast.
Alternativ lassen sie die Sucherei auch ganz sein, denn warum den Aufwand einer eigenen Suche betreiben, wenn man viel einfacher Google & Co. nach Seiten mit typischen Mustern von Kontakt- und Forenseiten fragen kann? Erst diese quasi vorgefilterte Ergebnisliste wird dann selbst abgeklappert.
Ich habe seit mittlerweile weit über zehn Jahren meine Kontaktseiten mit klaren E-Mail-Adressen in der robots.txt mit Disallow eingetragen, darunter auch Honigtopf-Adressen. Die Kontaktseiten tauchen bei Google nicht auf und siehe da: An diese Honigtöpfe ist in all den Jahren noch keine einzige Spammail gegangen. An die anderswo über Project Honeypot ausgelegten hingegen regelmäßig.