robots.txt von Martin, 06.04.2005 11:48

SELF-Forum

robots.txt

Martin 06.04.2005 10:23

sonstiges

– Informationen zu den Bewertungsregeln

Hallo,

ich hab auf unserem Server im Root-Verzeichnis eine robots.txt hinterlegt.

In dieser robots.txt hab ich folgende Zeile eingetragen:
User-agent: *
Disallow: /public/diplay_result.cfm

Leider indiziert der Robot bzw. Crawler von Yahoo immer wieder diese Seite, was für uns ein gr. Problem darstellt.

Hab ich hier noch etwas zu beachten, oder etwas falsch gemacht?

lg
Martin

Beitrag melden

– Informationen zu den Bewertungsregeln

robots.txt
Ingo Turski Homepage des Autors 06.04.2005 11:44

sonstiges
– Informationen zu den Bewertungsregeln
Hi,

Leider indiziert der Robot bzw. Crawler von Yahoo immer wieder diese Seite, was für uns ein gr. Problem darstellt.

Bist Du sicher, daß es der Yahoo! bzw. inktomi-Robot ist?
Oder doch eher:
Yahoo-MMCrawler/3.x (mm dash crawler at trd dot overture dot com)
oder:
Yahoo-MMCrawler/3.x (mms dash mmcrawler dash support at yahoo dash inc dot com)
hinter der sich AFAIK ein Bildersammler verbergen kann?

freundliche Grüße
Ingo

--
[barrierefreie Webseitenerstellung » Suchmaschinenoptimierung | em?] (Tanzschritte gesucht?;-)
Beitrag melden

–
Informationen zu den Bewertungsregeln
1. robots.txt
  
  Martin 06.04.2005 11:48
  
  sonstiges
  – Informationen zu den Bewertungsregeln
  Hi,
  
  Bist Du sicher, daß es der Yahoo! bzw. inktomi-Robot ist?
  
  Es ist:
  Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)
  
  also ist es der Crawler von Yahoo!
  
  danke
  lg
  Martin
  Beitrag melden
  
  –
  Informationen zu den Bewertungsregeln
  Übersicht
  
  alle Foren
  
  SELFHTML-Forum
  
  anmelden
  
  Benutzerkonto erstellen
  
  Beitrag im Thread-Baum
  1. robots.txt
    
    wahsaga Homepage des Autors 06.04.2005 12:00
    
    sonstiges
    
    – Informationen zu den Bewertungsregeln
    hi,
    
    Bist Du sicher, daß es der Yahoo! bzw. inktomi-Robot ist?
    
    Es ist:
    Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)
    
    also ist es der Crawler von Yahoo!
    
    laut der angegebenen seite müsste der sich zumindest daran halten:
    
    Yahoo! Slurp will obey the first entry in the robots.txt file with a User-Agent containing "Slurp". If there is no such record, it will obey the first entry with a User-Agent of "*".
    
    ach ja, und im satz darunter steht noch, warum er sie trotzdem _einliest_:
    
    Disallowed documents, including slash (the home page of the site), are not indexed, nor are links in those documents followed. Yahoo! Slurp does read the home page at each site and uses it internally, but if it is disallowed it is neither indexed nor followed.
    
    also, der slurp schlürft ein dokument auch, wenn er es laut robots.txt nicht soll - er folgt dort aber weder links, noch indexiert er das dokument.
    
    hm, komisches verhalten - und zu welchem "internen gebrauch" das passieren soll, ist mir auch unklar.
    
    wenn du slurp also wirklich davon abhalten willst, kommt wohl offenbar nur eine abfrage des user agent strings in frage, per mod_rewrite o.ä., um dann mit einem 401 forbidden zu antworten.
    
    gruß,
    wahsaga
    
    --
    /voodoo.css:
    #GeorgeWBush { position:absolute; bottom:-6ft; }
    Beitrag melden
    
    –
    Informationen zu den Bewertungsregeln
    
    Übersicht
    
    alle Foren
    
    SELFHTML-Forum
    
    anmelden
    
    Benutzerkonto erstellen
    
    Beitrag im Thread-Baum
    1. robots.txt
      
      Ingo Turski Homepage des Autors 06.04.2005 12:08
      
      sonstiges
      
      – Informationen zu den Bewertungsregeln
      
      Hi,
      
      also, der slurp schlürft ein dokument auch, wenn er es laut robots.txt nicht soll - er folgt dort aber weder links, noch indexiert er das dokument.
      
      hm, komisches verhalten - und zu welchem "internen gebrauch" das passieren soll, ist mir auch unklar.
      
      ich könnte mir denken, daß Inktomi zumindest prüfen will, was der "Normaluser" da zu sehen bekommt bzw. was Robots nicht sehen sollen - das könnte ja unschöne Gründe haben.
      
      wenn du slurp also wirklich davon abhalten willst, kommt wohl offenbar nur eine abfrage des user agent strings in frage, per mod_rewrite o.ä., um dann mit einem 401 forbidden zu antworten.
      
      Besser eine Abfrage der IP-Bereiche - falls das möglich ist. Yahoo/inktomi kommt auch mit anderen UAs, manchmal sogar als simpler Mozilla.
      
      freundliche Grüße
      Ingo
      
      --
      [barrierefreie Webseitenerstellung » Suchmaschinenoptimierung | em?] (Tanzschritte gesucht?;-)
      
      Beitrag melden
      
      –
      Informationen zu den Bewertungsregeln
      
      Übersicht
      
      alle Foren
      
      SELFHTML-Forum
      
      anmelden
      
      Benutzerkonto erstellen
      
      Beitrag im Thread-Baum

SELFHTML Forum - Ergänzung zur Dokumentation Übersicht

Martin: robots.txt

robots.txt

robots.txt

robots.txt

robots.txt

robots.txt

robots.txt