Hallo,
ich betreibe eine nicht-kommerzielle Webseite, die monatlich sechsstellige Zugriffszahlen hat. Aber leider nicht annähernd so viele Besucher, die sind eher im niedrigen dreistelligen Bereich.
Eine der Ursachen ist die überbordende Abfrage eines Veranstaltungskalenders durch Bots, hauptsächlich durch den GoogleBot. Der öffentlich zugängliche Bereich (mit dem Kalender) kommt ohne JS und Cookies aus, so dass ich die Parameter für den Kalender (Zeitraum, regionale und thematische Filter) im URL an das ausliefernde php-Skript liefere. Und leider variieren die Bots mittlerweile die verschiedenen Möglichkeiten, diese Parameter einzustellen - mit der Folge, dass zahlreiche Varianten abgefragt werden.
Die Kalender-Seite in der robots.txt für crawler generell zu sperren, möchte ich eigentlich nicht; auch wenn ich eigentlich nicht auf eine Sichtbarkeit im Netz angewiesen bin. Außerdem wäre dies nicht zielführend. Google selbst schlägt vor, den Zugriff in der robots.txt zu erlauben und dann im meta-Tag der Seite das Indizieren zu verbieten.
Ich könnte beispielsweise - nur bei Anfragen mit über die Standardeinstellung hinausgehenden Parametern - in der .htaccess ein Header set X-Robots-Tag "noindex, nofollow"
verwenden.
Sollte ich das so machen, oder habt ihr bessere Vorschläge?