Eintrag bei Google aus dem Index entfernen
Stefan Einspender
- sonstiges
Hallo ForumsleserInnen,
vielleicht kennt jemand das Problem, wie kann ich einen Eintrag bei
Google dauerhaft löschen? http://www.google.com/remove.html wirkt
einige Wochen/Monate, dann stehen die Einträge wieder im Index
drin. Nun habe ich so ziemlich alle Varianten ausprobiert, die
mir eingefallen sind, ob nun robots.txt, Metatags oder eben die
obengen. Google-Entfernungsfunktion. Derzeit liefere ich die
Websites mit 410 aus, doch scheinbar interessiert es Google über-
haupt nicht. Welche Möglichkeit bleibt mir da noch?
Viele Grüße,
Stefan
Tach auch,
vielleicht kennt jemand das Problem, wie kann ich einen Eintrag bei
Google dauerhaft löschen?
Nicht direkt, aber indirekt. Vor ein paar Wochen ging es glaube ich durch ein paar Blogs und Foren, ob es auch in den Nachrichten war weiss ich nicht: Der Googlebot hat wohl ab und zu Probleme mit der robots.txt, eine Diskussion die ich so auf die Schnelle finden konnte ist hier: http://www.webmasterworld.com/forum3/4008.htm
http://www.google.com/remove.html wirkt
einige Wochen/Monate, dann stehen die Einträge wieder im Index
drin. Nun habe ich so ziemlich alle Varianten ausprobiert, die
mir eingefallen sind, ob nun robots.txt, Metatags oder eben die
obengen. Google-Entfernungsfunktion. Derzeit liefere ich die
Websites mit 410 aus, doch scheinbar interessiert es Google über-
haupt nicht. Welche Möglichkeit bleibt mir da noch?
Da kann ich Dir auch nicht gross helfen, in dem obigen Thread wird eine e-mail Adresse erwaehnt (die ich jetzt irgendwie nicht wiederfinden kann) an die man sich wohl mit solchen Problemen wenden kann (irgendwas mit quality@google.com oder so aehnlich)
Hilft das?
Gruss,
Armin
Hallo Armin,
Der Googlebot hat wohl ab und zu Probleme mit der robots.txt
stimmt und kann mich (leider) auch nicht entsinnen, wann Google sich
jemals wirklich an die robots.txt gehalten hat. Sie nehmen dann wohl
die Beschreibungen raus, aber wirklich gelöscht werden gesperrte
Dateien im Index nicht :-(
Da kann ich Dir auch nicht gross helfen, in dem obigen Thread wird eine e-mail Adresse erwaehnt (die ich jetzt irgendwie nicht wiederfinden kann) an die man sich wohl mit solchen Problemen wenden kann (irgendwas mit quality@google.com oder so aehnlich)
http://www.webmasterworld.com/forum3/4008-2-15.htm#msg29
Hilft das?
Hm ... mal schauen, vielleicht liefere ich auch einfach die ganze
Domain mit 403 aus, dann bin ich ja mal gespannt, was Google da
macht.
Viele Grüße,
Stefan
PS: Wer die Geschichte weiterverfolgen will, hier ist eine der
Domains, die aus dem Google Index gelöscht werden soll:
http://www.google.com/search?q=e-webdesign.net
Hi Stefan Einspender,
vielleicht kennt jemand das Problem, wie kann ich einen Eintrag bei
Google dauerhaft löschen? http://www.google.com/remove.html wirkt
einige Wochen/Monate, dann stehen die Einträge wieder im Index drin.
wie sind sie wieder hinein gekommen? Hat Dich der GoogleBot neu besucht und Dein Web traversiert?
Du kannst Dir die Möglichkeiten der Content Negotiation zunutze machen und das Ergebnis eines Seitenzugriffs vom HTTP-Header "UserAgent" abhängig machen: Normale Besucher bekommen die normale Seite, der "UserAgent: GoogleBot" bekommt einen HTTP-Status 404 oder irgendwas in der Art.
(Das ist einer der wenigen Fälle, wo eine serverseitige Browserweiche wirklich Sinn macht, denke ich.)
Was Du nicht auslieferst, kann er nicht indexieren.
Viele Grüße
Michael
Hallo Michael,
wie sind sie wieder hinein gekommen? Hat Dich der GoogleBot neu besucht und Dein Web traversiert?
naja, irgendwo sind die alten Seiten, die es inzwischen nicht mehr
gibt, mal verlinkt gewesen, viele davon hier im Selfforum. Nachdem
sie aus dem Google-Index raus waren, kamen sie beim nächsten Such-
lauf dann wieder rein, obwohl der Googlebot einen 404 oder 410 be-
kommen hat.
Du kannst Dir die Möglichkeiten der Content Negotiation zunutze machen und das Ergebnis eines Seitenzugriffs vom HTTP-Header "UserAgent" abhängig machen: Normale Besucher bekommen die normale Seite, der "UserAgent: GoogleBot" bekommt einen HTTP-Status 404 oder irgendwas in der Art.
http://www.google.com/search?filter=0&q=inurl%3Aeinspender+site%3Aeinspender.de
sind 31 Einträge bei Google, keiner davon dürfte im Index stehen,
weil jede der Seiten entweder 301, 404, 410 zurückgibt oder über
die robots.txt geblockt ist. Diese Einstellungen sind so schon
seit vielen Monaten, zuletzt habe ich am 02.01.2003 (!) mal die
index.html geändert, alle anderen sind schon seit letztem Jahr so,
per robots.txt ist afaik schon alles seit mehr als zwei Jahren
gesperrt. Kurzum, Google ist es letztendlich egal, was ich da wo
nicht indiziert haben will, was irgendwo mal verlinkt wurde, wird
in den Index aufgenommen, egal ob es die Seite noch gibt oder
nicht. So scheint es mir zumindest.
Wobei ich gerade sehe, mit 404 liefere ich wohl nix aus, was aber
dann auch wieder den Grund hat, dass 410 ja der korrekte Status-
code ist, wenn es die Ressource nicht mehr gibt. Und dann wäre da
ja noch die robots.txt, ich verstehe es nicht ;-)
Viele Grüße,
Stefan
(Das ist einer der wenigen Fälle, wo eine serverseitige Browserweiche wirklich Sinn macht, denke ich.)
Was Du nicht auslieferst, kann er nicht indexieren.
Viele Grüße
Michael
Hallo Stefan,
gesperrt. Kurzum, Google ist es letztendlich egal, was ich da wo
nicht indiziert haben will, was irgendwo mal verlinkt wurde, wird
in den Index aufgenommen, egal ob es die Seite noch gibt oder
nicht. So scheint es mir zumindest.
aber wie will er die Seite in seinen Index aufnehmen, wenn er den Inhalt von Dir nicht ausgeliefert bekommt?
Es mag ja sein, daß die Seite über eine "site:your_domain"-Suche dann noch gefunden werden kann, nicht aber über eine Suche nach etwas aus ihrem Inhalt.
Wobei ich gerade sehe, mit 404 liefere ich wohl nix aus, was aber
dann auch wieder den Grund hat, dass 410 ja der korrekte Status-
code ist, wenn es die Ressource nicht mehr gibt. Und dann wäre da
ja noch die robots.txt, ich verstehe es nicht ;-)
Du hast zwei Möglichkeiten: Entweder Du vertraust darauf, daß Google alles richtig macht, oder ... technisch gesehen ist die Alternative nichts anderes als das Suchmaschinen-Spamming, was Google selbst wie die Pest haßt. Aber wenn sie Dir keine andere Möglichkeit lassen?
Viele Grüße
Michael
Hallo Michael,
aber wie will er die Seite in seinen Index aufnehmen, wenn er den Inhalt von Dir nicht ausgeliefert bekommt?
Es mag ja sein, daß die Seite über eine "site:your_domain"-Suche dann noch gefunden werden kann, nicht aber über eine Suche nach etwas aus ihrem Inhalt.
sogesehen stimmt es, die Inhalte werden nicht indiziert, da es die
ja auch nicht mehr gibt. Was ist allerdings mit Seiten, die über
robots.txt geblockt werden, weil sie einfach nicht im Index
stehen sollen. Die indiziert ja Google dann trotzdem, was sehr
ärgerlich ist. Für meine Patchworkseite (also die mit den Icons)
habe ich da bereits Massnahmen ergriffen, der Googlebot bekommt
da nicht den richtigen Inhalt sondern nur einen Link auf die
Homepage des Projektes angeboten.
Du hast zwei Möglichkeiten: Entweder Du vertraust darauf, daß Google alles richtig macht, oder ... technisch gesehen ist die Alternative nichts anderes als das Suchmaschinen-Spamming, was Google selbst wie die Pest haßt. Aber wenn sie Dir keine andere Möglichkeit lassen?
Ich werde mal noch 403 und 404 ausprobieren, auch so, dass es nur
der Googlebot bekommt. Lustig ist, dass Google selbst für einige
Programme einen 403 ausliefert, so z.Bsp. für Xenu. Habe ich zu-
fällig entdeckt, als ich die Links auf Favicon.de gecheckt habe.
Viele Grüße,
Stefan
Hallo Stefan,
der Googlebot bekommt. Lustig ist, dass Google selbst für einige
Programme einen 403 ausliefert, so z.Bsp. für Xenu. Habe ich zu-
fällig entdeckt, als ich die Links auf Favicon.de gecheckt habe.
die Google-Crawler-Truppe und die Google-Frontend-Gruppe scheinen überhaupt wenig voneinander zu wissen: Das Frontend liefert Seiten gzip-komprimiert aus, aber der Crawler versteht keine komprimierten Seiten ... dabei könnte er selbst viel schneller crawlen, wenn er das täte ...
Viele Grüße
Michael
(bei dem der GoogleBot für bestimmte Teil-Projekte die Browser-Statistk anführt, vor dem M$IE!)
Hallo Michael,
die Google-Crawler-Truppe und die Google-Frontend-Gruppe scheinen überhaupt wenig voneinander zu wissen: Das Frontend liefert Seiten gzip-komprimiert aus, aber der Crawler versteht keine komprimierten Seiten ... dabei könnte er selbst viel schneller crawlen, wenn er das täte ...
hm ... sowas ist bedauerlich, wenn diese Details dann nicht hinhauen,
wo die Suchmaschine ja sonst wirklich sehr gut ist. Naja, perfekt
gibt es eben nicht ;-)
So, kurze Prozeß gemacht, Googlebot bekommt hier nix mehr zu essen:
RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} ^Googlebot.*
RewriteRule ^.* - [F]
ErrorDocument 403 "<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN" "http://www.w3.org/TR/html4/strict.dtd"><html><head><title>403 Forbidden</title><meta name="robots" content="noindex"><meta name="robots" content="nofollow"><meta name="robots" content="noarchive"><meta http-equiv="content-type" content="text/html; charset=iso-8859-1"></head><body><h1>403 Forbidden</h1><p>You don't have permission to access any ressource on this server.</p></body></html>
Erstmal nur bei einspender.com und e-webdesign.net, einspender.de
kommt demnächst auch noch dazu, die muß erstmal vom Zwangs-Catch-
All-Webhoster Strato zu 1&1 wechseln.
Viele Grüße,
Stefan
Hi!
Wobei ich gerade sehe, mit 404 liefere ich wohl nix aus, was aber
dann auch wieder den Grund hat, dass 410 ja der korrekte Status-
code ist, wenn es die Ressource nicht mehr gibt. Und dann wäre da
ja noch die robots.txt, ich verstehe es nicht ;-)
ich könntemir vorstekllen dass google nur 404 akzeptiert. Daher würde ich - wenn die Seiten denn weiter online sein sollen, mal mit Michels Weiche probieren.
Und sonst, hast Du es schonmal hier probiert: http://services.google.com/urlconsole/controller?
Grüße
Andreas
Hallo Andreas,
ich könntemir vorstekllen dass google nur 404 akzeptiert. Daher würde ich - wenn die Seiten denn weiter online sein sollen, mal mit Michels Weiche probieren.
glaube ich so langsam auch, muß ich wohl mal einige 404-Fehler
produzieren, obwohl ich sowas überhaupt nicht mag :-(
Und sonst, hast Du es schonmal hier probiert: http://services.google.com/urlconsole/controller?
ja, ist besagtes Tool, wo die Einträge einige Wochen aus dem Index
verschwinden und dann später wieder drin sind. Praktisch vergisst
Google die dort gemeldeten Domains, findet die aber wieder, falls
sie noch irgendwo verlinkt sind und trägt sie (nach einer Sperr-
frist) wieder neu in den Index ein.
Viele Grüße,
Stefan
Hi!
ja, ist besagtes Tool, wo die Einträge einige Wochen aus dem Index
verschwinden und dann später wieder drin sind. Praktisch vergisst
Google die dort gemeldeten Domains, findet die aber wieder, falls
sie noch irgendwo verlinkt sind und trägt sie (nach einer Sperr-
frist) wieder neu in den Index ein.
Hm, aber das _kann_ doch nicht sein bei Deiner robots.txt. Das gibts doch nicht!
Naja, anscheinend doch:
http://www.google.de/search?q=google+ignoriert+robots.txt
http://www.google.de/search?q=google+ignore+robots.txt
Ich würde evtl. die IPs von Google sperren(da ich mir vorstellen könnte dass google sich auch mal einen anderen UA schnappt um dämliche Spammer zu überführen, wobei, bringt wohl eh nix denn die IPs sind ja auch bekannt, dann würden die wohl auch andere IPs brauchen, naja... ich werd das mal genauer erroieren ;-) ):
64.68.80.0 - 64.68.87.255
216.239.32.0 - 216.239.63.255
wären mir bekannt. Sind zwar nicht alles Spider, aber wenn die zu doof sind mit der simplen robots.txt umzugehen dann haben die Google-Mitarbeiter es auch nicht verdient auf Deine Seite zu kommen ;-)
Grüße
Andreas