Hallo, was sperrt man sinnvollerweise mit disallow?
Es handelt sich entgegen der Formulierung "disallow" nicht um ein echtes "Verbot" sondern eher um den zarten Hinweis an einen Robot, dass er bestimmte Ressourcen nicht abholen möge. Ein Robot soll sich daran halten. Tut er es nicht, dann ist ein richtiges Verbot, im Eskalationsfall das Blockieren jeglichen Netzverkehrs via Firewall die nächste Stufe.
Gehören dazu auch Bibliotheken mit CSS-Dateien oder php-Unterroutinen oder Ordner mit Bildern, die in den Seiten angeeigt werden?
-
Wenn Du nicht willst, dass Deine Grafiken z.B. in der Google-Bildersuche auftauchen - schreib sie rein. Dafür kann es gute Gründe geben.
-
CSS-Dateien wird kein Robot abrufen, der nicht die eigentliche Seite indexieren und dazu aufbereiten will. Es erscheint mir nicht sinnvoll, diese aufzunehmen. Das schließt nicht aus, dass es sinnvoll sein kann.
-
php-Unterroutinen sind eigentlich nirgends verlinkt. Es ist wohl sinnvoller, für diese Ordner (wie auch solche mit Grafiken, CSS-Dateien, das Generieren einer Index-Seite durch den Webserver zu unterbinden. Notfalls eine leere index.html anlegen.
-
Wenn es keinen sinnvollen Grund für den Zugriff unterhalb von
/lib/
gibt, dann sperre besser den HTTP-Zugriff auf den Ordner. In vielen Fällen verraten die Namen existierender Ordner, dass bestimmte CMS verwendet werden. Achte darauf, dass solche Sperren wie ein 404er ('File not found') "aussehen" und auch dieser Header (statt 403 Forbidden) gesendet wird. Angreifer testen Websites durch solche Testzugriffe nämlich auf ausnutzbare Sicherheitsprobleme. Erzeugst Du die Vermutung, dass z.B. kein Wordpress da ist, dann startet er den Angriff auf Wordpress nicht. -
Demnach wäre es natürlich kontraproduktiv
/wp-admin/
in die robots.txt aufzunehmen. Der letzte Absatz beschreibt, wann es doch sinnvoll sein kann. -
Du solltest auch bedenken, dass ein böswillig Handelnder die robots.txt auch (automatisiert) auslesen und sich die verbotenen Inhalte automatisiert abholen kann.
-
Verbiete also z.B. nicht den Zugriff auf die
/kontakt.php
sondern auf/kont*
- das musst Du dann freilich im Auge behalten, weil sonst vielleicht auch/kontinuierlichesSEO.php
nicht indiziert wird.
Lustig und nicht sinnfrei aber sehr optional (macht Mühe und erfordert viel Sorgfalt) ist es übrigens, in der robots.txt den Zugriff auf gar nicht existierende bzw. benötigte Ressourcen zu verbieten und bei einem Zugriffsversuch (der ja eigentlich nur nach dem Lesen und Auswerten der robots.txt, also böswillig, stattfinden kann) die betreffende IP automatisch zu blocken. So was nennt man "Honigtopf".