Martin: robots.txt

Hallo,

ich hab auf unserem Server im Root-Verzeichnis eine robots.txt hinterlegt.

In dieser robots.txt hab ich folgende Zeile eingetragen:
User-agent: *
Disallow: /public/diplay_result.cfm

Leider indiziert der Robot bzw. Crawler von Yahoo immer wieder diese Seite, was für uns ein gr. Problem darstellt.

Hab ich hier noch etwas zu beachten, oder etwas falsch gemacht?

lg
Martin

  1. Hi,

    Leider indiziert der Robot bzw. Crawler von Yahoo immer wieder diese Seite, was für uns ein gr. Problem darstellt.

    Bist Du sicher, daß es der Yahoo! bzw. inktomi-Robot ist?
    Oder doch eher:
    Yahoo-MMCrawler/3.x (mm dash crawler at trd dot overture dot com)
    oder:
    Yahoo-MMCrawler/3.x (mms dash mmcrawler dash support at yahoo dash inc dot com)
    hinter der sich AFAIK ein Bildersammler verbergen kann?

    freundliche Grüße
    Ingo

    1. Hi,

      Bist Du sicher, daß es der Yahoo! bzw. inktomi-Robot ist?

      Es ist:
      Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)

      also ist es der Crawler von Yahoo!

      danke
      lg
      Martin

      1. hi,

        Bist Du sicher, daß es der Yahoo! bzw. inktomi-Robot ist?

        Es ist:
        Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)

        also ist es der Crawler von Yahoo!

        laut der angegebenen seite müsste der sich zumindest daran halten:

        Yahoo! Slurp will obey the first entry in the robots.txt file with a User-Agent containing "Slurp". If there is no such record, it will obey the first entry with a User-Agent of "*".

        ach ja, und im satz darunter steht noch, warum er sie trotzdem _einliest_:

        Disallowed documents, including slash (the home page of the site), are not indexed, nor are links in those documents followed. Yahoo! Slurp does read the home page at each site and uses it internally, but if it is disallowed it is neither indexed nor followed.

        also, der slurp schlürft ein dokument auch, wenn er es laut robots.txt nicht soll - er folgt dort aber weder links, noch indexiert er das dokument.

        hm, komisches verhalten - und zu welchem "internen gebrauch" das passieren soll, ist mir auch unklar.

        wenn du slurp also wirklich davon abhalten willst, kommt wohl offenbar nur eine abfrage des user agent strings in frage, per mod_rewrite o.ä., um dann mit einem 401 forbidden zu antworten.

        gruß,
        wahsaga

        --
        /voodoo.css:
        #GeorgeWBush { position:absolute; bottom:-6ft; }
        1. Hi,

          also, der slurp schlürft ein dokument auch, wenn er es laut robots.txt nicht soll - er folgt dort aber weder links, noch indexiert er das dokument.

          hm, komisches verhalten - und zu welchem "internen gebrauch" das passieren soll, ist mir auch unklar.

          ich könnte mir denken, daß Inktomi zumindest prüfen will, was der "Normaluser" da zu sehen bekommt bzw. was Robots nicht sehen sollen - das könnte ja unschöne Gründe haben.

          wenn du slurp also wirklich davon abhalten willst, kommt wohl offenbar nur eine abfrage des user agent strings in frage, per mod_rewrite o.ä., um dann mit einem 401 forbidden zu antworten.

          Besser eine Abfrage der IP-Bereiche - falls das möglich ist. Yahoo/inktomi kommt auch mit anderen UAs, manchmal sogar als simpler Mozilla.

          freundliche Grüße
          Ingo