Ingo Siemon: 3 Fragen zur robot.txt

Hallo

Ich möchte meine eigenen Fehlerseiten (404er usw.) gerne
in der robots.txt als Disallow markieren.
Ich dachte, dass ist sinnvoll, damit diese nicht in Suchmschinen auftauchen.
Seht Ihr das auch so?

Wenn die Fehlerseiten-dateien im Hauptverzeichnis meiner Seite stehen,
genau, wie auch die robots-txt, wie muss es dann heissen:
  User-agent: *
  Disallow: /fehler404.htm
oder
  User-agent: *
  Disallow: fehler404.htm

Da die robots.txt ja von jedem User direkt im Browser aufgerufen wrden kann,
verrate ich damit doch im Grunde genau die Verzeichnisse/Dateien,
die ich ja eigentlich nicht so an die große Glocke hängen will.
Ist denn unter diesem Aspekt eine solche robots.txt überhaupt sinnvoll?
Oder ist es besser, das in den Metaangaben der einzelnen Dateien zu machen?

Gruß
Ingo

  1. Hi,

    Ich möchte meine eigenen Fehlerseiten (404er usw.) gerne
    in der robots.txt als Disallow markieren.

    diese wird ein Client, egal welcher, außer bei einer Fehlkonfiguration Deines Servers (oder direkter Verlinkung - aber wozu dies?) niemals in Form einer URI erhalten. Er erkennt Fehler am Statuscode der Ressource.

    Da die robots.txt ja von jedem User direkt im Browser aufgerufen wrden kann,
    verrate ich damit doch im Grunde genau die Verzeichnisse/Dateien,

    Nein. Du verrätst URIs. Ob diese etwas mit Verzeichnissen und/oder Dateien zu tun haben, hängt einzig und allein von Dir ab.

    Ist denn unter diesem Aspekt eine solche robots.txt überhaupt sinnvoll?

    In dieser Ressource werden URIs genannt. URIs, die ein Suchmaschinen-Client ganz exakt so erhält wie ein graphischer Benutzer-Client: Durch Verlinkung.

    Cheatah

    --
    X-Self-Code: sh:( fo:} ch:~ rl:° br:> n4:& ie:% mo:) va:) de:] zu:) fl:{ ss:) ls:~ js:|
    X-Self-Code-Url: http://emmanuel.dammerer.at/selfcode.html
    X-Will-Answer-Email: No
    X-Please-Search-Archive-First: Absolutely Yes
  2. Hallo,

    Ich möchte meine eigenen Fehlerseiten (404er usw.) gerne
    in der robots.txt als Disallow markieren.
    Ich dachte, dass ist sinnvoll, damit diese nicht in Suchmschinen auftauchen.
    Seht Ihr das auch so?

    Hmm... könnte Sinn haben, es sei denn du willst in http://www.plinko.net/404/area404.asp aufgenommen werden! ;-)

    Wenn die Fehlerseiten-dateien im Hauptverzeichnis meiner Seite stehen,
    genau, wie auch die robots-txt, wie muss es dann heissen:
      User-agent: *
      Disallow: /fehler404.htm

    Ja, genau so, wenn die "fehler404.htm" in deinem documentroot liegt.
    Sonst: Disallow: /verzeichnis/fehler404.htm

    Da die robots.txt ja von jedem User direkt im Browser aufgerufen wrden kann,
    verrate ich damit doch im Grunde genau die Verzeichnisse/Dateien,
    die ich ja eigentlich nicht so an die große Glocke hängen will.
    Ist denn unter diesem Aspekt eine solche robots.txt überhaupt sinnvoll?

    Wenn du Dateien nicht an die große Glocke hängen willst, ist robots.txt vom Grundsaz her die falsche Vorgehensweise. Du solltest dann die Dateien/Verzeichnisse PW geschützt anbieten.

    Grüße
    Thomas