robots.txt
Gast
- sonstiges
Guten Tag,
kann ich mit folgender Angabe in robots.txt den Zugriff der Bots auf
a l l e meine Unterverzeichnisse verhindern?
Disallow: /*/
Kann ich die Verhaltensweise der Bots selbst testen/feststellen?
Danke für Ihre Hilfe!
kann ich mit folgender Angabe in robots.txt den Zugriff der Bots auf
a l l e meine Unterverzeichnisse verhindern?Disallow: /*/
Nein
Robots.txt verhindert gar nichts, sondern empfiehlt im besten Falle
nimm .htaccess
Kann ich die Verhaltensweise der Bots selbst testen/feststellen?
Jeder Bot verhält sich bezüglich robots.txt anders.
mfg Beat
Hallo,
Robots.txt verhindert gar nichts, sondern empfiehlt im besten Falle
woher kommt diese Information?
Ich habe jetzt über Google in der Mehrheit Beiträge gefunden mit dem Tenor:
Ordentliche Suchmaschinen halten sich ausnahmslos an die robots.txt
nimm .htaccess
Dort kann ich den Zugriff auf Unterverzeichnisse verbieten, das gilt aber dann doch auch für die normalen Browserzugriffe - oder nicht?
Gruß
Hi,
»» Robots.txt verhindert gar nichts, sondern empfiehlt im besten Falle
woher kommt diese Information?
aus der Realität. Ein Bot unterscheidet sich von einem Browser nur in unwesentlichen Details - und hast Du jemals einen Browser mittels robots.txt daran hindern können, eine Seite aufzurufen?
Ordentliche Suchmaschinen halten sich ausnahmslos an die robots.txt
Ja, _ordentliche_ _Suchmaschinen_ tun das. Bots sind weder beschränkt auf Suchmaschinen, noch auf ordentliche.
»» nimm .htaccess
Dieser Rat ist übrigens irreführend. Gemeint war: Nimm HTTP-Authentication.
Dort kann ich den Zugriff auf Unterverzeichnisse verbieten, das gilt aber dann doch auch für die normalen Browserzugriffe - oder nicht?
Natürlich. Browser sind schließlich nutzergesteuerte Bots mit (zumeist) graphischer Ausgabe.
Cheatah
Hallo,
»» »» nimm .htaccess
Dieser Rat ist übrigens irreführend. Gemeint war: Nimm HTTP-Authentication.
Das verstehe ich leider nicht, denn das verbinde ich mit User/password-Anforderung, was ich natürlich nicht möchte.
... und gerade lese ich in SELFHTML:
"In einer zentralen robots.txt können Sie dagegen unabhängig von der Datei- und Verweisstruktur Ihres Web-Projekts festlegen, welche Verzeichnisse und Verzeichnisbäume ausgelesen werden dürfen, und welche nicht."
Ich darf demnach etwas festlegen, was aber für die Katz ist?
Hallo
"In einer zentralen robots.txt können Sie dagegen unabhängig von der Datei- und Verweisstruktur Ihres Web-Projekts festlegen, welche Verzeichnisse und Verzeichnisbäume ausgelesen werden dürfen, und welche nicht."
Ich darf demnach etwas festlegen, was aber für die Katz ist?
Es ist für jene (ro)bots für die Katz, die sich nicht an die Vorgaben der robots.txt halten. Die, die es tun, entnehmen der Datei die Information, welche Verzeichnisse sie zu meiden haben. In letzteren Fällen ist es also *nicht* für die Katz, die robots.txt vorzuhalten.
Tschö, Auge
Hallo
Es ist für jene (ro)bots für die Katz, die sich nicht an die Vorgaben der robots.txt halten. Die, die es tun, entnehmen der Datei die Information, welche Verzeichnisse sie zu meiden haben. In letzteren Fällen ist es also *nicht* für die Katz, die robots.txt vorzuhalten.
Was nützt es dann, etwas festzulegen, was nur von Teilen (nämlich den "guten") beherzigt wird. Gerade die andern, die möglicherweise die Informationen missbrauchen wollen (denn sonst hielten sie sich ja an Konventionen) sollen aber gebremst werden.
Was nützt es dann, etwas festzulegen, was nur von Teilen (nämlich den "guten") beherzigt wird. Gerade die andern, die möglicherweise die Informationen missbrauchen wollen (denn sonst hielten sie sich ja an Konventionen) sollen aber gebremst werden.
im internet fliegen fürchterlich viele dinge herum die nicht nützlich sind.
es ist auch nicht nützlich dass sich mircrosoft mit dem IE nicht an standards hält, sie tun es trotzdem.
Hallo
»» Es ist für jene (ro)bots für die Katz, die sich nicht an die Vorgaben der robots.txt halten. Die, die es tun, entnehmen der Datei die Information, welche Verzeichnisse sie zu meiden haben. In letzteren Fällen ist es also *nicht* für die Katz, die robots.txt vorzuhalten.
»»
Was nützt es dann, etwas festzulegen, was nur von Teilen (nämlich den "guten") beherzigt wird. Gerade die andern, die möglicherweise die Informationen missbrauchen wollen (denn sonst hielten sie sich ja an Konventionen) sollen aber gebremst werden.
Es wurde mehrfach erwähnt, dass robots.txt weder dazu da, noch dazu fähig ist. Was erwartest du jetzt?
Tschö, Auge
Es wurde mehrfach erwähnt, dass robots.txt weder dazu da, noch dazu fähig ist. Was erwartest du jetzt?
Ja, aber in Selfhtml wurde halt auch geschrieben, dass robots.txt dazu da ist!
Glaube ich nun den Forumsteilnehmern oder den Selfhtml-Autoren?
Hi,
Ja, aber in Selfhtml wurde halt auch geschrieben, dass robots.txt dazu da ist!
Glaube ich nun den Forumsteilnehmern oder den Selfhtml-Autoren?
Du kannst nicht alle Forumsteilnehmer über einen Kamm scheren. vielleicht ist das mal lesenswert für dich:
http://forum.de.selfhtml.org/archiv/2009/1/t181871/#m1203170
oder das:
http://forum.de.selfhtml.org/archiv/2008/4/t170202/#m1113307
So können Meinungen halt verschieden sein.
Peter
Hallo
»» Es wurde mehrfach erwähnt, dass robots.txt weder dazu da, noch dazu fähig ist. Was erwartest du jetzt?
»»
Ja, aber in Selfhtml wurde halt auch geschrieben, dass robots.txt dazu da ist!
Nein, da (<http://de.selfhtml.org/diverses/robots.htm@title=SELFHTML: robots.txt - Robots kontrollieren>) steht nämlich nicht nur das von dir in diesem Posting zitierte, sondern (schon vorher) auch folgendes:
<zitat>In einer Datei dieses Namens können Betreiber von Web-Projekten angeben, welcher Such-Robot welche Projektverzeichnisse auslesen darf und welcher was nicht lesen darf. Die Datei enthält also Anweisungen für Robots von Suchmaschinen. Die überwiegende Mehrheit der Robots moderner Suchmaschinen berücksichtigen das Vorhandensein einer robots.txt, lesen sie aus und befolgen die Anweisungen.</zitat>
Was schlössest du insbesondere aus dem letzten Satz (), wenn dich das Thema nicht so anföchte? Mir käme da zuerst in den Sinn, dass es eine "Kann-Ergänzung" ist. Es hilft mir, denen Vorgaben zu geben, die sich daran halten aber ich kann mich schlussendlich auf nichts verlassen.
Dies auch, da im vorletzten Absatz der Seite folgendes zu lesen ist:
<zitat>Web-Browser ignorieren die robots.txt. Es ist also nicht möglich, damit Daten vor Anwendern zu schützen.</zitat>
Wenn wir nun davon ausgehen, dass jeder Zugriff von außen von einem (beliebigen; *kann* ein Browser sein, aber eben z.B. auch ein Robot) Client stammt, sollte klar sein, dass die robots.txt ganz allgemein nicht zu dem von dir angestrebten Zweck taugt. Dass sich ein Browser und ein Robot im Kontext des kontaktierten Servers nicht unterscheiden, hat Cheatah ja schon hier angesprochen.
Glaube ich nun den Forumsteilnehmern oder den Selfhtml-Autoren?
Ich sehe dort keine Differenzen.
Nimm einfach hin, dass du für deinen Zweck eine andere Technik als robots.txt brauchst. Eventuell solltest du auch an eine Überarbeitung deines Konzepts denken. *Wir*, als die dir hier antwortenden, wissen ja nicht mehr, als dass du Robots den Zugriff auf alle Unterverzeichnisse verbieten, für Browser aber offensichtlich offenhalten willst.
Frage: Was darf der Browser dort finden, was keinen Robot etwas angeht?
Tschö, Auge
Hallo,
danke für die umfangreiche Erklärung.
<zitat>.... Die überwiegende Mehrheit der Robots moderner Suchmaschinen berücksichtigen das Vorhandensein einer robots.txt, lesen sie aus und befolgen die Anweisungen.</zitat>
Gut, und meine Ursprungsfrage bezieht sich auf diese Mehrheit der Robots.
Diese Frage war:
kann ich mit folgender Angabe in robots.txt den Zugriff der Bots auf
a l l e meine Unterverzeichnisse verhindern?
Disallow: /*/
Also nicht "Kann ich a l l e Robots daran hindern", sondern ich wollte nicht für jedes Unterverzeichnis ein Disallow angeben.
Gefunden hatte ich nur, dass Wild-cards im Dateinamen zulässig sind, nicht aber ob auch in Verzeichnisnamen.
Gruß
Hi,
Gut, und meine Ursprungsfrage bezieht sich auf diese Mehrheit der Robots.
Das bringt dir auch nichts. Du brauchst nur irgendwo deine Links mit ein wenig Bezugstext auf anderen Seiten zu haben, dann erscheint, sofern diese fremde Seite bei den Suchmaschinenergebnissen auftaucht eben auch der Bezug zu deinen (nicht gewollten indexierten) Seiten.
Solange man fremden Seiten(unter dem Deckmantel Suchmaschine) nicht verbieten kann Inhalte zu indexieren, landen sie über den Umweg auch zu den Grossen.
Peter
Hallo,
Das bringt dir auch nichts.
mit andern Worten "robots.txt gar nicht verwenden"?
Das bringt dir auch nichts.
mit andern Worten "robots.txt gar nicht verwenden"?
Natürlich. Es ist den Server schliesslich performanter, wenn die meisten unerwünschten Requests gar nicht erst kommen, als wenn man sie verbieten muss.
mfg Beat
Hi,
»» > Das bringt dir auch nichts.
»» mit andern Worten "robots.txt gar nicht verwenden"?Natürlich. Es ist den Server schliesslich performanter, wenn die meisten unerwünschten Requests gar nicht erst kommen, als wenn man sie verbieten muss.
da ich gerade mit Google-Webmaster kämpfe, bin ich zum Glück (oder Unglück?)
auf diesen thread gestoßen.
Ich habe in Unterverzeichnissen Bilder, in anderen html-Fragmente, die ich in die SHTML-Dateien einbinde (mit SSI), in wieder anderen eine Javascript-Bibliothek usw..
Diese Unterverzeichnisse wollte ich nun aufgrund der Hinweise bei Google verbieten per Disallow.
Also alles umsonst?
Viele Grüße
Youngster
Natürlich. Es ist den Server schliesslich performanter, wenn die meisten unerwünschten Requests gar nicht erst kommen, als wenn man sie verbieten muss.
Ich habe in Unterverzeichnissen Bilder, in anderen html-Fragmente, die ich in die SHTML-Dateien einbinde (mit SSI), in wieder anderen eine Javascript-Bibliothek usw..
Diese Unterverzeichnisse wollte ich nun aufgrund der Hinweise bei Google verbieten per Disallow.
Also alles umsonst?
Nein, nicht umsonst. Wie ich sage. Robots txt ist gut für die Server-Performance.
Aber es ist keine Sicherheitsvorrichtung.
mfg Beat
Hallo
Ich habe in Unterverzeichnissen Bilder, in anderen html-Fragmente, die ich in die SHTML-Dateien einbinde (mit SSI), in wieder anderen eine Javascript-Bibliothek usw..
Diese Unterverzeichnisse wollte ich nun aufgrund der Hinweise bei Google verbieten per Disallow.
Also alles umsonst?
bezüglich Google ist das nicth umsonst, Google beachtet die robots.txt. Aber, wie schon mehrfach erwähnt, ist dies *kein* "Zugriff-für-alle-verbieten-Schutzmechanismus". Bei deinen per SSI einzubindenden HTML-Fragmenten sollte eine serverseitige Authentifizierung den direkten Zugriff für Clients unmöglich machen, SSI greift auf diese Daten über das Dateisystem zu, womit dieser Zugriff möglich bleibt.
Die Bilder werden aber, so sie in eine Webseite eingebunden werden, vom Client/Browser per HTTP(S) geladen und müssen öffentlich zugänglich bleiben. An der Stelle hilft die robots.txt den direkten Zugriff für jene Clients/Robots zu sperren, die sich nach den in der robots.txt hinterlegten Anweisungen richten. Die, die sich nicht danach richten, haben, wie jeder Browser, der Bilder lädt, weiterhin Zugriff.
Tschö, Auge
Hallo
»» Ich habe in Unterverzeichnissen Bilder, in anderen html-Fragmente, die ich in die SHTML-Dateien einbinde (mit SSI), in wieder anderen eine Javascript-Bibliothek usw..
Die Bilder werden aber, so sie in eine Webseite eingebunden werden, vom Client/Browser per HTTP(S) geladen und müssen öffentlich zugänglich bleiben.
Das gilt natürlich auch für andere Ressourcen, die vom Browser geladen werden sollen, also auch für JavaScript-Bibliotheken.
Tschö, Auge
Hallo
bezüglich Google ist das nicth umsonst, Google beachtet die robots.txt. Aber, wie schon mehrfach erwähnt, ist dies *kein* "Zugriff-für-alle-verbieten-Schutzmechanismus".
Das möchte ich auch nicht, sondern es genügt mir, wenn Google und andere "anständige" Suchmaschinen nicht -zig Informationen lesen/speichern, die uninteressant sind.
Bei deinen per SSI einzubindenden HTML-Fragmenten sollte eine serverseitige Authentifizierung den direkten Zugriff für Clients unmöglich machen, SSI greift auf diese Daten über das Dateisystem zu, womit dieser Zugriff möglich bleibt.
Das was Du schreibst ist also für mich das passende.
Kannst Du mir noch einen Tipp geben, was hinter der serverseitigen Authentifizierung steckt, bzw. wo man eine einfache Beschreibung findet.
(ein wenig gegooglet und geselfhtmlt habe ich ohne weiter zu kommen).
Danke
Youngster
Hallo
»» Bei deinen per SSI einzubindenden HTML-Fragmenten sollte eine serverseitige Authentifizierung den direkten Zugriff für Clients unmöglich machen, SSI greift auf diese Daten über das Dateisystem zu, womit dieser Zugriff möglich bleibt.
»»
Das was Du schreibst ist also für mich das passende.
Kannst Du mir noch einen Tipp geben, was hinter der serverseitigen Authentifizierung steckt, bzw. wo man eine einfache Beschreibung findet.
(ein wenig gegooglet und geselfhtmlt habe ich ohne weiter zu kommen).
Tststs, dabei haben wir doch zwei Artikel, die sich mit dem Thema beschäftigen. Die sind zwar beide älteren Datums, aber dennoch sind die Informationen grundsätzlich auch heute noch gültig. Speziell beim ersten verlinkten Artikel ist noch zu sagen, dass dort von crypt zum Verschlüsseln die Rede ist und auch das unten auf der Seite befindliche Formular einen eingegebenen String mit crypt verschlüsselt.
Es kann aber (und dürfte) sein, dass dein Hoster andere Verschlüsselungsmethoden anbietet. Meist ist es heutzutage auch so, dass die Hoster in der Serververwaltung (z.B. Parallels Confixx) den Service anbieten, dass man selbst Verzeichnisse schützen kann. Dann bräuchtest du nur in der Oberfläche das entsprechende Verzeichnis auswählen und einen Benutzernamen und ein Passwort eintragen. Sich die Grundlagen anzulesen, sollte dennoch freiwillige Pflicht sein.
.htaccess Zugriffskontrolle
.htaccess-FAQ
Tschö, Auge
Hallo,
Sich die Grundlagen anzulesen, sollte dennoch freiwillige Pflicht sein.
Die habe ich schon (Passwort-Schutz über .htaccess habe ich schon im Einsatz).
Wenn ich Dich richtig verstehe, verwende ich diesen Schutz für die SSI-Bibliothek.
Wenn jemand direkt zugreifen will, bräuchte er das Passwort, der Server, der es mit SSI liest aber nicht?
Gruß
Youngster
Hallo
»» Sich die Grundlagen anzulesen, sollte dennoch freiwillige Pflicht sein.
Die habe ich schon (Passwort-Schutz über .htaccess habe ich schon im Einsatz).
Wenn ich Dich richtig verstehe, verwende ich diesen Schutz für die SSI-Bibliothek.
Wenn jemand direkt zugreifen will, bräuchte er das Passwort, der Server, der es mit SSI liest aber nicht?
Ja, denn .htaccess gilt im HTTP-Kontext, nicht in dem des Dateisystems. Will jemand via HTTP auf eine Ressource im geschützten Verzeichnis zugreifen (jemand mit Browser, (Ro)bot, fremder Server, ...), braucht er Benutzername und Passwort, hat er die nicht (wovon erstmal auszugehen ist), wird er zurückgewiesen (403, access denied). Wenn SSI auf Dateien zugreift, um weiteren Code oder HTML-Schnipsel einzubinden, wird dies über das Dateisystem erledigt, wo, wie gesagt, .htaccess nicht greift.
Tschö, Auge
Danke für die Auskünfte!
Hallo,
Diese Frage war:
kann ich mit folgender Angabe in robots.txt den Zugriff der Bots auf
a l l e meine Unterverzeichnisse verhindern?Disallow: /*/
Ich meine, das geht. Und ich glaube im Google-Webmaster-Paket gelesen zu haben, dass man die Wirkung von robots.txt testen kann!?
Gut, und meine Ursprungsfrage bezieht sich auf diese Mehrheit der Robots.
Diese Frage war:
kann ich mit folgender Angabe in robots.txt den Zugriff der Bots auf
a l l e meine Unterverzeichnisse verhindern?Disallow: /*/
Nein, die Syntax ist falsch http://www.bjoernsworld.de/suchmaschinen/robots-txt.html
Wenn dir wirklich nur um den Zugriff geht, dann ist die robots.txt der richtige Weg. Aber dir muss klar sein, dass du damit nicht verhindern kannst, dass die Seiten im Ergebnis von Suchmaschinen landen.
Struppi.
Hallo,
Nein, die Syntax ist falsch http://www.bjoernsworld.de/suchmaschinen/robots-txt.html
Siehe aber
Yahoo
Hi,
++++ WARUNUNG ++++
Siehe aber
Yahoo
Dieser Link bringt den IE zumindest Version 6 zum Absturz, einschliesslich anderer geöffneter Instanzen!
Peter
Was hast du für einen Browser?
Meine 5 im Einsatz befindlichen packen es!
Dieser Link bringt den IE zumindest Version 6 zum Absturz, einschliesslich anderer geöffneter Instanzen!
Youngster
Was hast du für einen Browser?
Meine 5 im Einsatz befindlichen packen es!
Wie gesagt IE6, und das reproduzierbar. Ärgerlich, weil ich auch andere Seiten offen hatte.
Peter
Hallo
danke für die umfangreiche Erklärung.
Dann gleich noch ein wenig Lesefutter, das auch gleich deine Frage nach der richtigen Syntax beantwortet. Dass sie so, wie unten geschrieben, falsch ist, hat Struppi ja schon angemerkt. :-)
Zugriffskontrolle für Suchmaschinen mit robots.txt
Gut, und meine Ursprungsfrage bezieht sich auf diese Mehrheit der Robots.
Diese Frage war:
kann ich mit folgender Angabe in robots.txt den Zugriff der Bots auf
a l l e meine Unterverzeichnisse verhindern?Disallow: /*/
Tschö, Auge
Glaube ich nun den Forumsteilnehmern oder den Selfhtml-Autoren?
Glaube ist im Internet ein höchst unzuverlässiges Protokoll.
Diskussion gestorben.
mfg Beat
Hi,
"In einer zentralen robots.txt können Sie dagegen unabhängig von der Datei- und Verweisstruktur Ihres Web-Projekts festlegen, welche Verzeichnisse und Verzeichnisbäume ausgelesen werden dürfen, und welche nicht."
Ich darf demnach etwas festlegen, was aber für die Katz ist?
Was ist denn daran so schwer zu verstehen?
Es ist in etwa das gleiche, wie mit einem "Keine Werbung bitte"-Schildchen am Briefkasten. So naiv, anzunehmen, dass dieses *technisch* *verhindere*, dass jemand doch Werbung einwirft, bist du doch wohl auch nicht ...?
MfG ChrisB
Es ist in etwa das gleiche, wie mit einem "Keine Werbung bitte"-Schildchen am Briefkasten. So naiv, anzunehmen, dass dieses *technisch* *verhindere*, dass jemand doch Werbung einwirft, bist du doch wohl auch nicht ...?
Meine Frage war aber "wie kann man verhindern, dass ......"
und nicht "wie kann ich höflichst bitten, dass ..."
Hi,
Meine Frage war aber "wie kann man verhindern, dass ......"
und nicht "wie kann ich höflichst bitten, dass ..."
Dazu wurden dir Moeglichkeiten genannt.
Wenn diese auch nicht das sind, was du wirklich willst - dann musst du erst mal genauer definieren, was du wirklich willst.
MfG ChrisB
echo $begrüßung;
Meine Frage war aber "wie kann man verhindern, dass ......"
und nicht "wie kann ich höflichst bitten, dass ..."
Dann musst du eine Zugriffsbeschränkung und keine -empfehlung verwenden. Mit mod_rewrite kann man solche fallweise implementieren.
RewriteRule requestmuster - [F]
Das schreibt alle Requests, die requestmuster entsprechen in nichts um und gibt einen 403er (forbidden) an den Client. Diese Regel kannst du mit einer oder mehreren Bedingung ausstatten (die vor die jeweilige RewriteRule zu schreiben ist).
RewriteCond %{HTTP_USER_AGENT} agentmuster
Da gibt es nur noch ein Problem. Wie alles was vom Client kommt, ist auch die Angabe zum Useragent beliebig manipulierbar und wie du sicher weißt, kann sich jeder Wolf als Geißlein ausgeben.
P.S. http://httpd.apache.org/docs antwortet grad nicht, so dass ich beide oben angegebenen Direktiven nicht verlinken kann.
echo "$verabschiedung $name";
Hallo,
Robots.txt verhindert gar nichts, sondern empfiehlt im besten Falle
woher kommt diese Information?
Ich habe jetzt über Google in der Mehrheit Beiträge gefunden mit dem Tenor:
Ordentliche Suchmaschinen halten sich ausnahmslos an die robots.txt
Nein, gewiss nicht, wenn du den Zugriff verbieten willst.
Zitat
kann ich mit folgender Angabe in robots.txt den Zugriff der Bots auf
a l l e meine Unterverzeichnisse verhindern?
Robots txt steuert, ob Seiten öffentlich indexiert werden. Daran mag sich ein teil der Bots, die sich als Index Bots ausgeben, halten.
Dummerweise ist der robots.txt Standard dermassen lausig, das es nicht einmal eine ordentliche Syntax gibt die verschiedenen Bots mit Sicherheit anzusprechen.
Zu robots text gibt es auch die Möglichkeit mit dem <meta> Element Seitenweise eine Empfehlung auszugeben.
http://de.selfhtml.org/html/kopfdaten/meta.htm#robots
nimm .htaccess
Dort kann ich den Zugriff auf Unterverzeichnisse verbieten, das gilt aber dann doch auch für die normalen Browserzugriffe - oder nicht?
Es gilt für jene Agents, welche du in einer besonderen Weise erkennst.
Du kannst mit htaccess kontrollieren, dass Google nicht nur ein ordentlicher Browser ist, sondern unter seinem Deckmantel als Google Bot auch nicht in der Lage ist, Bilder zu indexieren.
Separiere was du brauchst.
Robots Text als Empfehlung. .htaccess aber als zwingende Regel, und im Sinne eines absoluten Verzeichnisschutzes wie Cheatah sagt, mittels HTTP Authentification (die nicht zwingend an ein .htaccess File gebunden ist).
mfg Beat
Hallo Gast,
wenn ich diese Diskussion so lese, habe ich das Gefühl, du hast irgendwie eine falsche Vorstellung davon, wie das Internet so läuft. Alles was du ins Internet stellst, kann von jedem eingesehen werden. Es wurde dir schon gesagt, wie du Suchmaschinen "höflichst" darum bitten kannst, deine Seiten zu ignorieren. Ob sie sich daran halten, wer weiß? Die Großen und Bekannten tun es meines Wissens nach.
Wenn du einzelne Besucher, z.B. Bots, ausgrenzen möchtest, kannst du das über die Vergabe von Passwörtern tun. Es kann aber immer sein, dass jemand das Passwort (unfreiwillig) verrät. Du kannst auch Besucher über deren IP oder über ganze IP-Bereiche aussperren, dann musst du aber ständig prüfen, ob deine Ausschlussliste noch ausreicht.
Am sichersten sind deine Seiten, wenn du sie auf deiner Festplatte, oder besser noch auf CD/DVD im Schrank lässt.
Vielleicht verrätst du uns mal, was du erreichen willst und warum du die Bots aussperren willst und wie sicher der Schutz sein soll.
Gruß, Jürgen