Karl Heinz: robots.txt Disallow versus <meta>-Tag noindex

Beitrag lesen

Hallo,

das Crawling Budget des Google Bots pro Webseite ist ja begrenzt. Es macht demnach Sinn mit Hilfe der robots.txt dafür zu sorgen, dass das Crawling Budget nur für das Crawling der relevanten Seiten (die indexiert werden sollen) genutzt wird. Aus diesem Grund ist es sinnvoll z.B. folgendes in die robots.txt zu packen:

User-agent: *
Disallow: /admin/
Disallow: /core/
Disallow: /tmp/
Disallow: /views/
Disallow: /setup/
Disallow: /log/
Disallow: /*?cl=search
Disallow: /*&cl=search

Damit wird kein Crawling Budget für Seiten verbraten deren Indexierung nicht sinnvoll ist. Wird allerdings eine Seite, aus den oben genannten Verzeichnissen verlinkt, so kann es trotzdem sein, dass diese Seite im Google Index auftaucht. Die Meta Description kann allerdings nicht ausgelesen werden, da ein Crawling in der robots.txt verboten wurde.

In den SERPS würde das dann so aussehen:

Fragen:

  • Eigentlich müsste man alle Seiten, deren Crawling in der robots.txt verboten wird, mit dem <meta>-Tag noindex kennzeichnen, nur so kann man vermeiden, dass in den Google SERPS Ergebnisse angezeigt werden, bei welchen keine Meta Description ausgelesen werden kann. In der Praxis geht das aber nicht, weil:

Die Anweisung noindex funktioniert nur, wenn die Seite nicht durch eine robots.txt-Datei blockiert wird. Andernfalls ist die noindex-Anweisung für den Crawler nicht sichtbar und die Seite kann somit weiterhin in den Suchergebnissen erscheinen, beispielsweise wenn es auf anderen Seiten Verlinkungen zu ihr gibt.

Welchen Ausweg gibt es aus diesem Schlamassel? Wie kann ich vermeiden, dass eine Seite die über die robots.txt vom Crawling ausgeschlossen ist, nicht so etwas in den SERPS liefert?

  • Angenommen man kennzeichnet eine Seite mit dem <mata>-Tag noindex. Einen Dissalow Eintrag in der robots.txt bezogen auf diese Seite gibt es nicht. Dann wird die Seite zwar nicht indexiert Crawling Budget wird aber schon verbraucht oder?

  • Wie kann ich erreichen, dass eine Seite weder gecrawlt wird (und damit kein Crawling Budget verbraucht) noch indexiert wird? Ist das in Kombination überhaupt möglich?

Viele Grüße

--
"Die Deutsche Rechtschreibung ist Freeware, sprich, du kannst sie kostenlos nutzen. Allerdings ist sie nicht Open Source, d.h. du darfst sie nicht verändern oder in veränderter Form veröffentlichen."