wahsaga: Probleme beim Eintrag in Google

Beitrag lesen

hi,

auch bei einer direkt verlinkten datei in unterverzeichnisxy _weiss_ ein robot, der sich an den standard hält also trotzdem, dass er im webroot der site nach der robots.txt zu suchen hat.
Jetzt wird's interessant, denn woher weiß er das?

woher weiss ein browser, dass <p> einen absatz kennzeichnet?

Rät er, indem er den URI einfach nach der TLD "abschneidet"? Oder hängt er einfach bloß ein robots.txt dran?

ich kann nicht so ganz nachvollziehen, was dir unklar erscheint?
der RFC http://www.robotstxt.org/wc/norobots-rfc.txt sagt aus,

zitat anfang >>>

3.1 Access method

The instructions must be accessible via HTTP [2] from the site that
   the instructions are to be applied to, as a resource of Internet
   Media Type [3] "text/plain" under a standard relative path on the
   server: "/robots.txt".

For convenience we will refer to this resource as the "/robots.txt
   file", though the resource need in fact not originate from a file-
   system.

Some examples of URLs [4] for sites and URLs for corresponding
   "/robots.txt" sites:

http://www.foo.com/welcome.html http://www.foo.com/robots.txt

http://www.bar.com:8001/        http://www.bar.com:8001/robots.txt
<<< zitat ende <<<

entweder der spider kennt diesen standard, und hält sich dran - oder er tut es nicht. wenn er ihn aber kennt und sich dran hält, besteht zum "raten" m.e. nicht die geringste notwendigkeit ...

gruss,
wahsaga