Robert B.: Suchmaschinen-Management

Beitrag lesen

Moin fietur,

Ich kenne drei Möglichkeiten der Zugangs-/Scan-Begrenzung:

  • die robots.txt

Damit kannst keinen Zugang begrenzen, sondern Clients, die sich als Bots (im soziologischen Sinn) identifizieren, bitten bestimmte Bereiche (nicht) zu indizieren.

Dort verbiete ich den Zugriff auf Dateitypen wie PDFs oder einzelne Ordner; wer sich nicht daran hält, landet auf meiner schwarzen Liste; funktioniert ganz gut, nachdem die ohnehin robots-ignoranten Crawler aussortiert wurden.

Das funktioniert aber auch nur solange, wie sich ein Bot nicht als handelsüblicher Browser ausgibt und so verhält.

  • die .htaccess

Hier steht das Gleiche in grün wirksam:

<FilesMatch "\.(png|jpe?g|webp|gif|mp4|mp3)$">
Header set X-Robots-Tag "noindex"
</FilesMatch>
<FilesMatch "\.pdf$">
Header set X-Robots-Tag "noindex, nofollow"
</FilesMatch>

Wirksam? Der Client muss diesen Header kennen und als Bitte verstehen. Ich lese davon gerade zum ersten Mal …

  • Direkt auf der Seite im <head>

Ich habe derzeit noch ein <meta name="robots" content="noindex,nofollow"> eingebunden. Das funktioniert zu meiner Überraschung sehr gut […]

Weil es (neben der robots.txt) seit Jahrzehnten spezifiziert so spezifiziert und implementiert ist.

[…]bisher wird die Seite noch von keiner Suchmaschine gelistet. Zwar kamen die ersten Besucher aus Fernost (und -west) bereits wenige Stunden nach Registrierung der Domain, aber die Zahl der (unnötig bis unerwünschten) Zugriffe liegt noch erfreulich niedrig.

Woran machst du denn „unnötige“ Zugriffe fest?

„Unerwünschte Zugriffe“ wirst du nur mit einer geschlossenen Seite unterbinden können, sprich hinter einem Login (HTTP Authentication oder Login-Formular mit Cookies o.ä.).

Aber es gibt Fallstricke. Ich habe beispielsweise für manche Beiträge eine Bewertungsfunktion in Form zweier als Buttons getarnter Links.

Buttons sollten auch Buttons sein und Aktionen, die etwas auf dem Server ändern, sollten niemals per GET ausgeführt werden können. Mit anderen Worten: Mach aus den „Links“ echte Buttons in einem Formular, das einen POST-Request absendet und verhindere auf dem Server CSRF.

Sollte ein Robot einen dieser Links anwählen (und sich für das voten des anderen disqualifizieren), verfälscht das die Bewertung und Beteiligung. Hier wäre ein rel="nofollow" im <a href=...> das Mittel der Wahl, oder?

Nein, denn es ist immer noch nur eine Bitte an einen Client.

Ein anderes Problem ist, dass ich neben nicht zu indizierenden Dokumenten (PDF's) auf der Startseite unterschiedliche Beiträge aufführe. Einige davon dürfen oder sollen indiziert werden, während andere eher nur für menschliche und bereits auf der Seite befindliche Besucher gedacht sind. Und hier lautet meine Frage: Wie kann ich für solche <article> ein Finetuning vornehmen, so dass Google und Co einzelne davon indizieren, andere aber links liegen lassen?

Hast du einmal eine Suchmaschine deiner Wahl danach befragt?

Viele Grüße
Robert