Gast: robots.txt

Guten Tag,
kann ich mit folgender Angabe in robots.txt den Zugriff der Bots auf
a l l e   meine Unterverzeichnisse verhindern?

Disallow: /*/

Kann ich die Verhaltensweise der Bots selbst testen/feststellen?

Danke für Ihre Hilfe!

  1. kann ich mit folgender Angabe in robots.txt den Zugriff der Bots auf
    a l l e   meine Unterverzeichnisse verhindern?

    Disallow: /*/

    Nein
    Robots.txt verhindert gar nichts, sondern empfiehlt im besten Falle

    nimm .htaccess

    Kann ich die Verhaltensweise der Bots selbst testen/feststellen?

    Jeder Bot verhält sich bezüglich robots.txt anders.

    mfg Beat

    --
    ><o(((°>           ><o(((°>
       <°)))o><                     ><o(((°>o
    1. Hallo,

      Robots.txt verhindert gar nichts, sondern empfiehlt im besten Falle

      woher kommt diese Information?
      Ich habe jetzt über Google in der Mehrheit Beiträge gefunden mit dem Tenor:
      Ordentliche Suchmaschinen halten sich ausnahmslos an die robots.txt

      nimm .htaccess

      Dort kann ich den Zugriff auf Unterverzeichnisse verbieten, das gilt aber dann doch auch für die normalen Browserzugriffe - oder nicht?

      Gruß

      1. Hi,

        »» Robots.txt verhindert gar nichts, sondern empfiehlt im besten Falle
        woher kommt diese Information?

        aus der Realität. Ein Bot unterscheidet sich von einem Browser nur in unwesentlichen Details - und hast Du jemals einen Browser mittels robots.txt daran hindern können, eine Seite aufzurufen?

        Ordentliche Suchmaschinen halten sich ausnahmslos an die robots.txt

        Ja, _ordentliche_ _Suchmaschinen_ tun das. Bots sind weder beschränkt auf Suchmaschinen, noch auf ordentliche.

        »» nimm .htaccess

        Dieser Rat ist übrigens irreführend. Gemeint war: Nimm HTTP-Authentication.

        Dort kann ich den Zugriff auf Unterverzeichnisse verbieten, das gilt aber dann doch auch für die normalen Browserzugriffe - oder nicht?

        Natürlich. Browser sind schließlich nutzergesteuerte Bots mit (zumeist) graphischer Ausgabe.

        Cheatah

        --
        X-Self-Code: sh:( fo:} ch:~ rl:| br:> n4:& ie:% mo:) va:) de:] zu:) fl:{ ss:) ls:~ js:|
        X-Self-Code-Url: http://emmanuel.dammerer.at/selfcode.html
        X-Will-Answer-Email: No
        X-Please-Search-Archive-First: Absolutely Yes
        1. Hallo,

          »» »» nimm .htaccess

          Dieser Rat ist übrigens irreführend. Gemeint war: Nimm HTTP-Authentication.

          Das verstehe ich leider nicht, denn das verbinde ich mit User/password-Anforderung, was ich natürlich nicht möchte.

          1. ... und gerade lese ich in SELFHTML:

            "In einer zentralen robots.txt können Sie dagegen unabhängig von der Datei- und Verweisstruktur Ihres Web-Projekts festlegen, welche Verzeichnisse und Verzeichnisbäume ausgelesen werden dürfen, und welche nicht."

            Ich darf demnach etwas festlegen, was aber für die Katz ist?

            1. Hallo

              "In einer zentralen robots.txt können Sie dagegen unabhängig von der Datei- und Verweisstruktur Ihres Web-Projekts festlegen, welche Verzeichnisse und Verzeichnisbäume ausgelesen werden dürfen, und welche nicht."

              Ich darf demnach etwas festlegen, was aber für die Katz ist?

              Es ist für jene (ro)bots für die Katz, die sich nicht an die Vorgaben der robots.txt halten. Die, die es tun, entnehmen der Datei die Information, welche Verzeichnisse sie zu meiden haben. In letzteren Fällen ist es also *nicht* für die Katz, die robots.txt vorzuhalten.

              Tschö, Auge

              --
              Die deutschen Interessen werden am Liechtenstein verteidigt.
              Veranstaltungsdatenbank Vdb 0.2
              1. Hallo

                Es ist für jene (ro)bots für die Katz, die sich nicht an die Vorgaben der robots.txt halten. Die, die es tun, entnehmen der Datei die Information, welche Verzeichnisse sie zu meiden haben. In letzteren Fällen ist es also *nicht* für die Katz, die robots.txt vorzuhalten.

                Was nützt es dann, etwas festzulegen, was nur von Teilen (nämlich den "guten") beherzigt wird. Gerade die andern, die möglicherweise die Informationen missbrauchen wollen (denn sonst hielten sie sich ja an Konventionen) sollen aber gebremst werden.

                1. Was nützt es dann, etwas festzulegen, was nur von Teilen (nämlich den "guten") beherzigt wird. Gerade die andern, die möglicherweise die Informationen missbrauchen wollen (denn sonst hielten sie sich ja an Konventionen) sollen aber gebremst werden.

                  im internet fliegen fürchterlich viele dinge herum die nicht nützlich sind.
                  es ist auch nicht nützlich dass sich mircrosoft mit dem IE nicht an standards hält, sie tun es trotzdem.

                  --
                  for your security, this text has been encrypted by ROT13 twice.
                2. Hallo

                  »» Es ist für jene (ro)bots für die Katz, die sich nicht an die Vorgaben der robots.txt halten. Die, die es tun, entnehmen der Datei die Information, welche Verzeichnisse sie zu meiden haben. In letzteren Fällen ist es also *nicht* für die Katz, die robots.txt vorzuhalten.
                  »»
                  Was nützt es dann, etwas festzulegen, was nur von Teilen (nämlich den "guten") beherzigt wird. Gerade die andern, die möglicherweise die Informationen missbrauchen wollen (denn sonst hielten sie sich ja an Konventionen) sollen aber gebremst werden.

                  Es wurde mehrfach erwähnt, dass robots.txt weder dazu da, noch dazu fähig ist. Was erwartest du jetzt?

                  Tschö, Auge

                  --
                  Die deutschen Interessen werden am Liechtenstein verteidigt.
                  Veranstaltungsdatenbank Vdb 0.2
                  1. Es wurde mehrfach erwähnt, dass robots.txt weder dazu da, noch dazu fähig ist. Was erwartest du jetzt?

                    Ja, aber in Selfhtml wurde halt auch geschrieben, dass robots.txt dazu da ist!
                    Glaube ich nun den Forumsteilnehmern oder den Selfhtml-Autoren?

                    1. Hi,

                      Ja, aber in Selfhtml wurde halt auch geschrieben, dass robots.txt dazu da ist!
                      Glaube ich nun den Forumsteilnehmern oder den Selfhtml-Autoren?

                      Du kannst nicht alle Forumsteilnehmer über einen Kamm scheren. vielleicht ist das mal lesenswert für dich:

                      http://forum.de.selfhtml.org/archiv/2009/1/t181871/#m1203170

                      oder das:

                      http://forum.de.selfhtml.org/archiv/2008/4/t170202/#m1113307

                      So können Meinungen halt verschieden sein.

                      Peter

                    2. Hallo

                      »» Es wurde mehrfach erwähnt, dass robots.txt weder dazu da, noch dazu fähig ist. Was erwartest du jetzt?
                      »»
                      Ja, aber in Selfhtml wurde halt auch geschrieben, dass robots.txt dazu da ist!

                      Nein, da (<http://de.selfhtml.org/diverses/robots.htm@title=SELFHTML: robots.txt - Robots kontrollieren>) steht nämlich nicht nur das von dir in diesem Posting zitierte, sondern (schon vorher) auch folgendes:

                      <zitat>In einer Datei dieses Namens können Betreiber von Web-Projekten angeben, welcher Such-Robot welche Projektverzeichnisse auslesen darf und welcher was nicht lesen darf. Die Datei enthält also Anweisungen für Robots von Suchmaschinen. Die überwiegende Mehrheit der Robots moderner Suchmaschinen berücksichtigen das Vorhandensein einer robots.txt, lesen sie aus und befolgen die Anweisungen.</zitat>

                      Was schlössest du insbesondere aus dem letzten Satz (), wenn dich das Thema nicht so anföchte? Mir käme da zuerst in den Sinn, dass es eine "Kann-Ergänzung" ist. Es hilft mir, denen Vorgaben zu geben, die sich daran halten aber ich kann mich schlussendlich auf nichts verlassen.

                      Dies auch, da im vorletzten Absatz der Seite folgendes zu lesen ist:

                      <zitat>Web-Browser ignorieren die robots.txt. Es ist also nicht möglich, damit Daten vor Anwendern zu schützen.</zitat>

                      Wenn wir nun davon ausgehen, dass jeder Zugriff von außen von einem (beliebigen; *kann* ein Browser sein, aber eben z.B. auch ein Robot) Client stammt, sollte klar sein, dass die robots.txt ganz allgemein nicht zu dem von dir angestrebten Zweck taugt. Dass sich ein Browser und ein Robot im Kontext des kontaktierten Servers nicht unterscheiden, hat Cheatah ja schon hier angesprochen.

                      Glaube ich nun den Forumsteilnehmern oder den Selfhtml-Autoren?

                      Ich sehe dort keine Differenzen.

                      Nimm einfach hin, dass du für deinen Zweck eine andere Technik als robots.txt brauchst. Eventuell solltest du auch an eine Überarbeitung deines Konzepts denken. *Wir*, als die dir hier antwortenden, wissen ja nicht mehr, als dass du Robots den Zugriff auf alle Unterverzeichnisse verbieten, für Browser aber offensichtlich offenhalten willst.

                      Frage: Was darf der Browser dort finden, was keinen Robot etwas angeht?

                      Tschö, Auge

                      --
                      Die deutschen Interessen werden am Liechtenstein verteidigt.
                      Veranstaltungsdatenbank Vdb 0.2
                      1. Hallo,
                        danke für die umfangreiche Erklärung.

                        <zitat>.... Die überwiegende Mehrheit der Robots moderner Suchmaschinen berücksichtigen das Vorhandensein einer robots.txt, lesen sie aus und befolgen die Anweisungen.</zitat>

                        Gut, und meine Ursprungsfrage bezieht sich auf diese Mehrheit der Robots.
                        Diese Frage war:
                        kann ich mit folgender Angabe in robots.txt den Zugriff der Bots auf
                        a l l e   meine Unterverzeichnisse verhindern?

                        Disallow: /*/

                        Also nicht "Kann ich     a l l e     Robots daran hindern", sondern ich wollte nicht für jedes Unterverzeichnis ein Disallow angeben.

                        Gefunden hatte ich nur, dass Wild-cards im Dateinamen zulässig sind, nicht aber ob auch in Verzeichnisnamen.
                        Gruß

                        1. Hi,

                          Gut, und meine Ursprungsfrage bezieht sich auf diese Mehrheit der Robots.

                          Das bringt dir auch nichts. Du brauchst nur irgendwo deine Links mit ein wenig Bezugstext auf anderen Seiten zu haben, dann erscheint, sofern diese fremde Seite bei den Suchmaschinenergebnissen auftaucht eben auch der Bezug zu deinen (nicht gewollten indexierten) Seiten.

                          Solange man fremden Seiten(unter dem Deckmantel Suchmaschine) nicht verbieten kann Inhalte zu indexieren, landen sie über den Umweg auch zu den Grossen.

                          Peter

                          1. Hallo,

                            Das bringt dir auch nichts.

                            mit andern Worten "robots.txt gar nicht verwenden"?

                            1. Das bringt dir auch nichts.
                              mit andern Worten "robots.txt gar nicht verwenden"?

                              Natürlich. Es ist den Server schliesslich performanter, wenn die meisten unerwünschten Requests gar nicht erst kommen, als wenn man sie verbieten muss.

                              mfg Beat

                              --
                              ><o(((°>           ><o(((°>
                                 <°)))o><                     ><o(((°>o
                              1. Hi,

                                »» > Das bringt dir auch nichts.
                                »» mit andern Worten "robots.txt gar nicht verwenden"?

                                Natürlich. Es ist den Server schliesslich performanter, wenn die meisten unerwünschten Requests gar nicht erst kommen, als wenn man sie verbieten muss.

                                da ich gerade mit Google-Webmaster kämpfe, bin ich zum Glück (oder Unglück?)
                                auf diesen thread gestoßen.
                                Ich habe in Unterverzeichnissen Bilder, in anderen html-Fragmente, die ich in die SHTML-Dateien einbinde (mit SSI), in wieder anderen eine Javascript-Bibliothek usw..
                                Diese Unterverzeichnisse wollte ich nun aufgrund der Hinweise bei Google verbieten per Disallow.
                                Also alles umsonst?

                                Viele Grüße
                                Youngster

                                1. Natürlich. Es ist den Server schliesslich performanter, wenn die meisten unerwünschten Requests gar nicht erst kommen, als wenn man sie verbieten muss.

                                  Ich habe in Unterverzeichnissen Bilder, in anderen html-Fragmente, die ich in die SHTML-Dateien einbinde (mit SSI), in wieder anderen eine Javascript-Bibliothek usw..
                                  Diese Unterverzeichnisse wollte ich nun aufgrund der Hinweise bei Google verbieten per Disallow.
                                  Also alles umsonst?

                                  Nein, nicht umsonst. Wie ich sage. Robots txt ist gut für die Server-Performance.
                                  Aber es ist keine Sicherheitsvorrichtung.

                                  mfg Beat

                                  --
                                  ><o(((°>           ><o(((°>
                                     <°)))o><                     ><o(((°>o
                                2. Hallo

                                  Ich habe in Unterverzeichnissen Bilder, in anderen html-Fragmente, die ich in die SHTML-Dateien einbinde (mit SSI), in wieder anderen eine Javascript-Bibliothek usw..
                                  Diese Unterverzeichnisse wollte ich nun aufgrund der Hinweise bei Google verbieten per Disallow.
                                  Also alles umsonst?

                                  bezüglich Google ist das nicth umsonst, Google beachtet die robots.txt. Aber, wie schon mehrfach erwähnt, ist dies *kein* "Zugriff-für-alle-verbieten-Schutzmechanismus". Bei deinen per SSI einzubindenden HTML-Fragmenten sollte eine serverseitige Authentifizierung den direkten Zugriff für Clients unmöglich machen, SSI greift auf diese Daten über das Dateisystem zu, womit dieser Zugriff möglich bleibt.

                                  Die Bilder werden aber, so sie in eine Webseite eingebunden werden, vom Client/Browser per HTTP(S) geladen und müssen öffentlich zugänglich bleiben. An der Stelle hilft die robots.txt den direkten Zugriff für jene Clients/Robots zu sperren, die sich nach den in der robots.txt hinterlegten Anweisungen richten. Die, die sich nicht danach richten, haben, wie jeder Browser, der Bilder lädt, weiterhin Zugriff.

                                  Tschö, Auge

                                  --
                                  Die deutschen Interessen werden am Liechtenstein verteidigt.
                                  Veranstaltungsdatenbank Vdb 0.2
                                  1. Hallo

                                    »» Ich habe in Unterverzeichnissen Bilder, in anderen html-Fragmente, die ich in die SHTML-Dateien einbinde (mit SSI), in wieder anderen eine Javascript-Bibliothek usw..

                                    Die Bilder werden aber, so sie in eine Webseite eingebunden werden, vom Client/Browser per HTTP(S) geladen und müssen öffentlich zugänglich bleiben.

                                    Das gilt natürlich auch für andere Ressourcen, die vom Browser geladen werden sollen, also auch für JavaScript-Bibliotheken.

                                    Tschö, Auge

                                    --
                                    Die deutschen Interessen werden am Liechtenstein verteidigt.
                                    Veranstaltungsdatenbank Vdb 0.2
                                  2. Hallo

                                    bezüglich Google ist das nicth umsonst, Google beachtet die robots.txt. Aber, wie schon mehrfach erwähnt, ist dies *kein* "Zugriff-für-alle-verbieten-Schutzmechanismus".

                                    Das möchte ich auch nicht, sondern es genügt mir, wenn Google und andere "anständige" Suchmaschinen nicht -zig Informationen lesen/speichern, die uninteressant sind.

                                    Bei deinen per SSI einzubindenden HTML-Fragmenten sollte eine serverseitige Authentifizierung den direkten Zugriff für Clients unmöglich machen, SSI greift auf diese Daten über das Dateisystem zu, womit dieser Zugriff möglich bleibt.

                                    Das was Du schreibst ist also für mich das passende.
                                    Kannst Du mir noch einen Tipp geben, was hinter der serverseitigen Authentifizierung steckt, bzw. wo man eine einfache Beschreibung findet.
                                    (ein wenig gegooglet und geselfhtmlt habe ich ohne weiter zu kommen).
                                    Danke
                                    Youngster

                                    1. Hallo

                                      »» Bei deinen per SSI einzubindenden HTML-Fragmenten sollte eine serverseitige Authentifizierung den direkten Zugriff für Clients unmöglich machen, SSI greift auf diese Daten über das Dateisystem zu, womit dieser Zugriff möglich bleibt.
                                      »»
                                      Das was Du schreibst ist also für mich das passende.
                                      Kannst Du mir noch einen Tipp geben, was hinter der serverseitigen Authentifizierung steckt, bzw. wo man eine einfache Beschreibung findet.
                                      (ein wenig gegooglet und geselfhtmlt habe ich ohne weiter zu kommen).

                                      Tststs, dabei haben wir doch zwei Artikel, die sich mit dem Thema beschäftigen. Die sind zwar beide älteren Datums, aber dennoch sind die Informationen grundsätzlich auch heute noch gültig. Speziell beim ersten verlinkten Artikel ist noch zu sagen, dass dort von crypt zum Verschlüsseln die Rede ist und auch das unten auf der Seite befindliche Formular einen eingegebenen String mit crypt verschlüsselt.

                                      Es kann aber (und dürfte) sein, dass dein Hoster andere Verschlüsselungsmethoden anbietet. Meist ist es heutzutage auch so, dass die Hoster in der Serververwaltung (z.B. Parallels Confixx) den Service anbieten, dass man selbst Verzeichnisse schützen kann. Dann bräuchtest du nur in der Oberfläche das entsprechende Verzeichnis auswählen und einen Benutzernamen und ein Passwort eintragen. Sich die Grundlagen anzulesen, sollte dennoch freiwillige Pflicht sein.

                                      .htaccess Zugriffskontrolle
                                      .htaccess-FAQ

                                      Tschö, Auge

                                      --
                                      Die deutschen Interessen werden am Liechtenstein verteidigt.
                                      Veranstaltungsdatenbank Vdb 0.2
                                      1. Hallo,

                                        Sich die Grundlagen anzulesen, sollte dennoch freiwillige Pflicht sein.

                                        Die habe ich schon (Passwort-Schutz über .htaccess habe ich schon im Einsatz).
                                        Wenn ich Dich richtig verstehe, verwende ich diesen Schutz für die SSI-Bibliothek.
                                        Wenn jemand direkt zugreifen will, bräuchte er das Passwort, der Server, der es mit SSI liest aber nicht?
                                        Gruß
                                        Youngster

                                        1. Hallo

                                          »» Sich die Grundlagen anzulesen, sollte dennoch freiwillige Pflicht sein.

                                          Die habe ich schon (Passwort-Schutz über .htaccess habe ich schon im Einsatz).
                                          Wenn ich Dich richtig verstehe, verwende ich diesen Schutz für die SSI-Bibliothek.
                                          Wenn jemand direkt zugreifen will, bräuchte er das Passwort, der Server, der es mit SSI liest aber nicht?

                                          Ja, denn .htaccess gilt im HTTP-Kontext, nicht in dem des Dateisystems. Will jemand via HTTP auf eine Ressource im geschützten Verzeichnis zugreifen (jemand mit Browser, (Ro)bot, fremder Server, ...), braucht er Benutzername und Passwort, hat er die nicht (wovon erstmal auszugehen ist), wird er zurückgewiesen (403, access denied). Wenn SSI auf Dateien zugreift, um weiteren Code oder HTML-Schnipsel einzubinden, wird dies über das Dateisystem erledigt, wo, wie gesagt, .htaccess nicht greift.

                                          Tschö, Auge

                                          --
                                          Die deutschen Interessen werden am Liechtenstein verteidigt.
                                          Veranstaltungsdatenbank Vdb 0.2
                                          1. Danke für die Auskünfte!

                        2. Hallo,

                          Diese Frage war:
                          kann ich mit folgender Angabe in robots.txt den Zugriff der Bots auf
                          a l l e   meine Unterverzeichnisse verhindern?

                          Disallow: /*/

                          Ich meine, das geht. Und ich glaube im Google-Webmaster-Paket gelesen zu haben, dass man die Wirkung von robots.txt testen kann!?

                        3. Gut, und meine Ursprungsfrage bezieht sich auf diese Mehrheit der Robots.
                          Diese Frage war:
                          kann ich mit folgender Angabe in robots.txt den Zugriff der Bots auf
                          a l l e   meine Unterverzeichnisse verhindern?

                          Disallow: /*/

                          Nein, die Syntax ist falsch http://www.bjoernsworld.de/suchmaschinen/robots-txt.html

                          Wenn dir wirklich nur um den Zugriff geht, dann ist die robots.txt der richtige Weg. Aber dir muss klar sein, dass du damit nicht verhindern kannst, dass die Seiten im Ergebnis von Suchmaschinen landen.

                          Struppi.

                          1. Hallo,

                            Nein, die Syntax ist falsch http://www.bjoernsworld.de/suchmaschinen/robots-txt.html

                            Siehe aber
                            Yahoo

                            1. Hi,

                              ++++ WARUNUNG ++++

                              Siehe aber
                              Yahoo

                              Dieser Link bringt den IE zumindest Version 6 zum Absturz, einschliesslich anderer geöffneter Instanzen!

                              Peter

                              1. Was hast du für einen Browser?
                                Meine 5 im Einsatz befindlichen packen es!

                                Yahoo

                                Dieser Link bringt den IE zumindest Version 6 zum Absturz, einschliesslich anderer geöffneter Instanzen!

                                Youngster

                                1. Was hast du für einen Browser?
                                  Meine 5 im Einsatz befindlichen packen es!

                                  Wie gesagt IE6, und das reproduzierbar. Ärgerlich, weil ich auch andere Seiten offen hatte.

                                  Peter

                        4. Hallo

                          danke für die umfangreiche Erklärung.

                          Dann gleich noch ein wenig Lesefutter, das auch gleich deine Frage nach der richtigen Syntax beantwortet. Dass sie so, wie unten geschrieben, falsch ist, hat Struppi ja schon angemerkt. :-)

                          Zugriffskontrolle für Suchmaschinen mit robots.txt

                          Gut, und meine Ursprungsfrage bezieht sich auf diese Mehrheit der Robots.
                          Diese Frage war:
                          kann ich mit folgender Angabe in robots.txt den Zugriff der Bots auf
                          a l l e   meine Unterverzeichnisse verhindern?

                          Disallow: /*/

                          Tschö, Auge

                          --
                          Die deutschen Interessen werden am Liechtenstein verteidigt.
                          Veranstaltungsdatenbank Vdb 0.2
                    3. Glaube ich nun den Forumsteilnehmern oder den Selfhtml-Autoren?

                      Glaube ist im Internet ein höchst unzuverlässiges Protokoll.
                      Diskussion gestorben.

                      mfg Beat

                      --
                      ><o(((°>           ><o(((°>
                         <°)))o><                     ><o(((°>o
            2. Hi,

              "In einer zentralen robots.txt können Sie dagegen unabhängig von der Datei- und Verweisstruktur Ihres Web-Projekts festlegen, welche Verzeichnisse und Verzeichnisbäume ausgelesen werden dürfen, und welche nicht."

              Ich darf demnach etwas festlegen, was aber für die Katz ist?

              Was ist denn daran so schwer zu verstehen?

              Es ist in etwa das gleiche, wie mit einem "Keine Werbung bitte"-Schildchen am Briefkasten. So naiv, anzunehmen, dass dieses *technisch* *verhindere*, dass jemand doch Werbung einwirft, bist du doch wohl auch nicht ...?

              MfG ChrisB

              --
              „This is the author's opinion, not necessarily that of Starbucks.“
              1. Es ist in etwa das gleiche, wie mit einem "Keine Werbung bitte"-Schildchen am Briefkasten. So naiv, anzunehmen, dass dieses *technisch* *verhindere*, dass jemand doch Werbung einwirft, bist du doch wohl auch nicht ...?

                Meine Frage war aber "wie kann man verhindern, dass ......"
                und nicht "wie kann ich höflichst bitten, dass ..."

                1. Hi,

                  Meine Frage war aber "wie kann man verhindern, dass ......"
                  und nicht "wie kann ich höflichst bitten, dass ..."

                  Dazu wurden dir Moeglichkeiten genannt.
                  Wenn diese auch nicht das sind, was du wirklich willst - dann musst du erst mal genauer definieren, was du wirklich willst.

                  MfG ChrisB

                  --
                  „This is the author's opinion, not necessarily that of Starbucks.“
                2. echo $begrüßung;

                  Meine Frage war aber "wie kann man verhindern, dass ......"
                  und nicht "wie kann ich höflichst bitten, dass ..."

                  Dann musst du eine Zugriffsbeschränkung und keine -empfehlung verwenden. Mit mod_rewrite kann man solche fallweise implementieren.

                  RewriteRule requestmuster - [F]

                  Das schreibt alle Requests, die requestmuster entsprechen in nichts um und gibt einen 403er (forbidden) an den Client. Diese Regel kannst du mit einer oder mehreren Bedingung ausstatten (die vor die jeweilige RewriteRule zu schreiben ist).

                  RewriteCond %{HTTP_USER_AGENT} agentmuster

                  Da gibt es nur noch ein Problem. Wie alles was vom Client kommt, ist auch die Angabe zum Useragent beliebig manipulierbar und wie du sicher weißt, kann sich jeder Wolf als Geißlein ausgeben.

                  P.S. http://httpd.apache.org/docs antwortet grad nicht, so dass ich beide oben angegebenen Direktiven nicht verlinken kann.

                  echo "$verabschiedung $name";

      2. Hallo,

        Robots.txt verhindert gar nichts, sondern empfiehlt im besten Falle

        woher kommt diese Information?
        Ich habe jetzt über Google in der Mehrheit Beiträge gefunden mit dem Tenor:
        Ordentliche Suchmaschinen halten sich ausnahmslos an die robots.txt

        Nein, gewiss nicht, wenn du den Zugriff verbieten willst.

        Zitat

        kann ich mit folgender Angabe in robots.txt den Zugriff der Bots auf
        a l l e   meine Unterverzeichnisse verhindern?

        Robots txt steuert, ob Seiten öffentlich indexiert werden. Daran mag sich ein teil der Bots, die sich als Index Bots ausgeben, halten.

        Dummerweise ist der robots.txt Standard dermassen lausig, das es nicht einmal eine ordentliche Syntax gibt die verschiedenen Bots mit Sicherheit anzusprechen.

        Zu robots text gibt es auch die Möglichkeit mit dem <meta> Element Seitenweise eine Empfehlung auszugeben.
        http://de.selfhtml.org/html/kopfdaten/meta.htm#robots

        nimm .htaccess
        Dort kann ich den Zugriff auf Unterverzeichnisse verbieten, das gilt aber dann doch auch für die normalen Browserzugriffe - oder nicht?

        Es gilt für jene Agents, welche du in einer besonderen Weise erkennst.

        Du kannst mit htaccess kontrollieren, dass Google nicht nur ein ordentlicher Browser ist, sondern unter seinem Deckmantel als Google Bot auch nicht in der Lage ist, Bilder zu indexieren.

        Separiere was du brauchst.
        Robots Text als Empfehlung. .htaccess aber als zwingende Regel, und im Sinne eines absoluten Verzeichnisschutzes wie Cheatah sagt, mittels HTTP Authentification (die nicht zwingend an ein .htaccess File gebunden ist).

        mfg Beat

        --
        ><o(((°>           ><o(((°>
           <°)))o><                     ><o(((°>o
  2. Hallo Gast,

    wenn ich diese Diskussion so lese, habe ich das Gefühl, du hast irgendwie eine falsche Vorstellung davon, wie das Internet so läuft. Alles was du ins Internet stellst, kann von jedem eingesehen werden. Es wurde dir schon gesagt, wie du Suchmaschinen "höflichst" darum bitten kannst, deine Seiten zu ignorieren. Ob sie sich daran halten, wer weiß? Die Großen und Bekannten tun es meines Wissens nach.

    Wenn du einzelne Besucher, z.B. Bots, ausgrenzen möchtest, kannst du das über die Vergabe von Passwörtern tun. Es kann aber immer sein, dass jemand das Passwort (unfreiwillig) verrät. Du kannst auch Besucher über deren IP oder über ganze IP-Bereiche aussperren, dann musst du aber ständig prüfen, ob deine Ausschlussliste noch ausreicht.

    Am sichersten sind deine Seiten, wenn du sie auf deiner Festplatte, oder besser noch auf CD/DVD im Schrank lässt.

    Vielleicht verrätst du uns mal, was du erreichen willst und warum du die Bots aussperren willst und wie sicher der Schutz sein soll.

    Gruß, Jürgen