Markus: Robots.txt

Hi,

wenn man in der Robots.Txt folgendes definiert:

User-agent: *
Disallow: /ordnername/

dann sind doch alle Files in Verzeichnis "ordnername", sowie(!) alle Files in möglichen Unterordner von "ordnername" vor dem Spider geschützt oder nicht?

Der Spider darf also nicht die Inhalte von z.B.  /ordnername/01 und  /ordnername/02/abc auslesen.

Oder liege ich da falsch?

Guten Abend noch,
Markus

  1. hio,

    Der Spider darf also nicht die Inhalte von z.B.  /ordnername/01 und  /ordnername/02/abc auslesen.

    Oder liege ich da falsch?

    ein wenig ^^, du drückst einen Wunsch aus, dem der Spider entsprechen kann aber nicht muss. Ein seriöser Spider wird sich daran halten. Aber sicherlich nicht alle.

    gl & hf

    Thorsten

  2. Hallo,

    wenn man in der Robots.Txt folgendes definiert:

    User-agent: *
    Disallow: /ordnername/

    dann sind doch alle Files in Verzeichnis "ordnername", sowie(!) alle Files in möglichen Unterordner von "ordnername" vor dem Spider geschützt oder nicht?

    Theoretisch: Ja.
    Vor anstaendigen Spidern.

    Der Googlebot z.B. ist unanstaendig und geht trotzdem schauen,
    was es dort so gibt.
    Wenn er dann in den Dateien das META-Tag
    <meta name='robots' content='index, follow'>
    findet, dann denkt er sich: "Das ist was fuer mich!",
    und schon sind die Seiten, die Du eigentlich
    schuetzen wolltest, im Index drin und erscheinen bei den
    Suchresultaten...

    Der einzig "sichere" Weg, um Seiten vor Google zu schuetzen,
    wenn man dieses META-Tag in den Seiten drin haben will,
    ist ein Verzeichnisschutz mit .htaccess/.htpasswd
    Die Benutzername/Kennwort-Kombination kannst Du dann
    auf einer oeffentlichen Seite offen lesbar anzeigen,
    damit Menschen es abtippen koennen und somit an die Inhalte kommen.

    Vor Google koennte man sich natuerlich auch mit
    dem entsprechenden META-Tag schuetzen:
    <meta name='robots' content='noindex, nofollow'>
    Behaupten sie jedenfalls auf
    http://www.google.com/remove.html#exclude_pages
    Um auch das "Cachen" zu verhindern, waere allenfalls
    <meta name='robots' content='noindex, nofollow, noarchive'>
    angebracht.

    HTH, mfg
    Thomas

    1. Hi Thomas,

      danke für die ausführliche Antwort.

      Bye,

      Markus

      Theoretisch: Ja.
      Vor anstaendigen Spidern.