Auge: robots.txt Disallow versus <meta>-Tag noindex

Beitrag lesen

Hallo

Dann muss ich also davon ausgehen, dass Google entgegen eigener Aussagen die in der robots.txt festgelegten Regeln nicht (vollständig) befolgt.

Die Regeln werden von Google vollständig befolgt. Ich glaube du interpretierst die Regeln einfach falsch und gehst deshalb davon aus, dass Google die Regeln nicht vollständig befolgt. Die Reglen in der robots.txt beziehen sich ausschließlich auf das Crawling. Mit der Indexierung haben die Regeln in der robots.txt nichts zu tun.

Wenn ein Verzeichnis per robots.txt von der Indexierung durch Suchroboter ausgeschlossen werden soll,

Mit der robots.txt kannst du nur vom Crawling ausschließen nicht vom Indexieren.

Der Artikel im SelfHTML-Wiki sagt anderes:

„Hinter jeder Zeile, die mit Disallow: beginnt, können Sie jeweils eine Pfadangabe notieren. Die Robots werden diese Pfade auf Ihrer Seite dann nicht indizieren.“

Hervorhebung von mir.

In diesem Artikel:

https://support.google.com/webmasters/answer/6062608?hl=de

schreibt Google folgendes:

Eine robots.txt-Datei teilt Suchmaschinen-Crawlern mit, welche Seiten oder Dateien der Crawler von Ihrer Website anfordern kann und welche nicht. Dies dient hauptsächlich dazu, eine Überlastung Ihrer Website mit Anfragen zu vermeiden. Es handelt sich dabei nicht um einen Mechanismus, um eine Website aus Google auszuschließen. Wenn Sie eine Website aus Google ausschließen möchten, verwenden Sie am besten noindex-Tags oder -Anweisungen oder schützen Sie Ihre Seite mit einem Passwort.

Keine Ahnung, wessen Interpretation nun die richtige oder zumindest richtigere ist.

Wenn die Interpretation Googles nicht korrekt sein sollte, ändert das natürlich dennoch nichts an den Tatsachen. Wie heißt es so schön: „Die normative Kraft des Faktischen.“ Sowohl @bornstecker als auch ich haben dir empfohlen, das Verzeichnis mit den fraglichen Dateien von den Regeln in der robots.txt auszuschließen, damit die Robots darauf zugreifen können und für beziehungsweise in den Dateien stattdessen mit dem HTTP-Header und dem Meta-Element zu arbeiten. Wenn diese beachtet werden, hast du die Suchergebnisse mit dem Hinweis auf die robots.txt schlicht nicht mehr.

Tschö, Auge

--
Eine Kerze stand [auf dem Abort] bereit, und der Almanach des vergangenen Jahres hing an einer Schnur. Die Herausgeber kannten ihre Leser und druckten den Almanach auf weiches, dünnes Papier.
Kleine freie Männer von Terry Pratchett