und schon gar nicht mit diesen unsäglichen Fragezeichen-Quatsch-URLs von PHP).
Verfolgungswahn.
Ich weiß jetzt nicht so ganz genau warum mir Deine Antwort auf meine offensichtlich zielführenden Anmerkungen nicht gefallen will. Vielleicht solltest Du an der Tonhöhe was justieren. Mit
Nein, seit jeher in der Form "Disallow: /impressum.html"
in der robots.txt hast Du jedenfalls Unrecht, weil genau diese vollständige Aufführung die bots möglicherweise (so diese denn die robots.txt auslesen) genau zum Ziel - "versteckte" Urls - führt. Diese einerseits verstecken zu wollen und dann doch zu veröffentlichen erscheint mir "krass widersinnig" und deshalb würde ich mich dem strikt enthalten. Da ist ein bloses
<meta name="robots" content="noindex">
in den Dateien/Antworten selbst sehr viel sinnvoller.
Möglicherweise bist Du ja damit einverstanden die "impressum.html" in "nobots-impressum.html" umzubenennen und in der robots.txt dann
Disallow: nobots-*
zu hinterlegen. Das schafft dann die einfache Möglichkeit durch Umbenennen festzulegen, was die Robots abrufen dürfen und was nicht. Und das geht, wenn man so will, auch mit (virtuellen) Ordnern. Freilich sollten dann die entsprechenden Ressourcen nicht auch noch unter einer Standard-Uri wie
- impressum[.html .htm .php .pl .cgi]
- kontakt[.html .htm .php .pl .cgi]
- contact[.html .htm .php .pl .cgi]
erreichbar sein. Dann eben so:
Disallow: /nobots/*
Für diese Ordner kann man dann mittels Serverkonfiguration sogar noch Feintuning betreiben. Mit etwas wie <FilesMatch "^nobots-.*">
würde man das bei einem Apache abgrenzen.