hi,
auch bei einer direkt verlinkten datei in unterverzeichnisxy _weiss_ ein robot, der sich an den standard hält also trotzdem, dass er im webroot der site nach der robots.txt zu suchen hat.
Jetzt wird's interessant, denn woher weiß er das?
woher weiss ein browser, dass <p> einen absatz kennzeichnet?
Rät er, indem er den URI einfach nach der TLD "abschneidet"? Oder hängt er einfach bloß ein robots.txt dran?
ich kann nicht so ganz nachvollziehen, was dir unklar erscheint?
der RFC http://www.robotstxt.org/wc/norobots-rfc.txt sagt aus,
zitat anfang >>>
3.1 Access method
The instructions must be accessible via HTTP [2] from the site that
the instructions are to be applied to, as a resource of Internet
Media Type [3] "text/plain" under a standard relative path on the
server: "/robots.txt".
For convenience we will refer to this resource as the "/robots.txt
file", though the resource need in fact not originate from a file-
system.
Some examples of URLs [4] for sites and URLs for corresponding
"/robots.txt" sites:
http://www.foo.com/welcome.html http://www.foo.com/robots.txt
http://www.bar.com:8001/ http://www.bar.com:8001/robots.txt
<<< zitat ende <<<
entweder der spider kennt diesen standard, und hält sich dran - oder er tut es nicht. wenn er ihn aber kennt und sich dran hält, besteht zum "raten" m.e. nicht die geringste notwendigkeit ...
gruss,
wahsaga