Ralf: robots.txt

Hallo,

kann mir jemand sagen, ob man im robots.txt-Dokument ohne Reue "Allow" benutzen kann, um den Crawlern der Suchmaschinen ausdrücklich die Seiten zu benennen, die sie gefälligst besuchen sollen? Oder gilt nach wie vor nur "Disallow", um die Seiten auszuschliessen, die nicht indexiert werden sollen?

Danke,
Ralf

  1. kann mir jemand sagen, ob man im robots.txt-Dokument ohne Reue "Allow" benutzen kann, um den Crawlern der Suchmaschinen ausdrücklich die Seiten zu benennen, die sie gefälligst besuchen sollen? Oder gilt nach wie vor nur "Disallow", um die Seiten auszuschliessen, die nicht indexiert werden sollen?

    Moin,

    Aus der Suchfibel:

    Wenn man einen bestimmten Robot komplett von der Site fernhalten möchte, kann man das tun, indem der Name und dann kein Verzeichnis genannt wird. Wichtig ist der Slash /.

    User-agent: EmailCollector
    Disallow: /

    Läßt man den Slash weg, so kann man die gesamte Site freigeben, in diesem Beispiel für den Robot Spider.

    User-agent: Spider
    Disallow:

    Funktioniert auch für Subdirectories. Die Spider nehmen oft nicht alle Seiten mit, aus Kapazitätsgründen. Dann kommt es auch noch drauf an, wie weit die Seiten weg von der Einstiegsseite verlinks sind. Mehr als 2 Linktiefen und viele Robos geben auf.
    Mehr Infos zu robots.txt und Deinem geschilderten Problem gibt es auf http://www.suchfibel.de/6gefundn/6frame6.htm Frisch überarbeitet.

    Gruss, kaz

    1. Wenn man einen bestimmten Robot komplett von der Site fernhalten möchte, kann man das tun, indem der Name und dann kein Verzeichnis genannt wird. Wichtig ist der Slash /.

      User-agent: EmailCollector
      Disallow: /

      Läßt man den Slash weg, so kann man die gesamte Site freigeben, in diesem Beispiel für den Robot Spider.

      User-agent: Spider
      Disallow:

      Funktioniert auch für Subdirectories. Die Spider nehmen oft nicht alle Seiten mit, aus Kapazitätsgründen. Dann kommt es auch noch drauf an, wie weit die Seiten weg von der Einstiegsseite verlinks sind. Mehr als 2 Linktiefen und viele Robos geben auf.
      Mehr Infos zu robots.txt und Deinem geschilderten Problem gibt es auf http://www.suchfibel.de/6gefundn/6frame6.htm Frisch überarbeitet.

      Gruss, kaz

      Hallo kaz,

      ich war eben auf Deiner Suchfibelsite, danke für den Tip. Was ich aber eigentlich wissen möchte, das ist, ob der Befehl "Allow" als solcher existiert, das heisst, ob ich explizit einzelne Dateien oder Ordner zum indexieren freigeben kann. Bei unserer Website wollen wir die meissten Datein ausschliessen, und nur einige freigeben. Ich möchte vermeiden, die auszuschliessenden Dateien alle einzeln zu benennen. Ich dachte, mit "allow: /datei.htm" benenne ich erst die wenigen zu indexierenden, und dann mit "disallow:/" schliesse ich den ganzen Rest aus. Leider haben wir bei der Konstruktion des Rootordners nicht daran gedacht, die auszuschliessenden in einen eigenen Ordner zu packen. NUn ist es zu spät, die Link stehen. Ich weiss, dass es "allow" gibt, aber weisst Du zuffällig, ob man diesen Befehl uneingeschr¨nkt benutzen kann, oder wird er nicht von allen Crawlern interpretiert?

      Danke,
      Ralf

      1. ich war eben auf Deiner Suchfibelsite, danke für den Tip. Was ich aber eigentlich wissen möchte, das ist, ob der Befehl "Allow" als solcher existiert, das heisst, ob ich explizit einzelne Dateien oder Ordner zum indexieren freigeben kann.

        Moin,

        Meines Wissens nicht. Das geht mit dem vorhandenen oder entfernten Slash /.

        Einzelne Dateien kann man mit metas versehen

        <META name="robots" content="noindex">
        <META name="robots" content="nofollow">

        Das wird aber nicht von allen ausgwertet. Wers tut & wer nicht, hier die Liste:

        http://www.suchfibel.de/3allgem/3frame6.htm

        Sind eher wenige. Ansonsten hilft nur ein cooles Linkverwaltungstool und aufräumen und in Ordner packen. Aber auch robots.txt ist keine Garantie fuers nicht-indexieren. Manche halten sich auch daran nicht.

        Gruss, kaz