Content Negotiation über den UserAgent von Andreas Korthaus, 08.05.2003 15:18

Eintrag bei Google aus dem Index entfernen

Stefan Einspender Homepage des Autors 08.05.2003 08:39

sonstiges

Hallo ForumsleserInnen,

vielleicht kennt jemand das Problem, wie kann ich einen Eintrag bei
Google dauerhaft löschen? http://www.google.com/remove.html wirkt
einige Wochen/Monate, dann stehen die Einträge wieder im Index
drin. Nun habe ich so ziemlich alle Varianten ausprobiert, die
mir eingefallen sind, ob nun robots.txt, Metatags oder eben die
obengen. Google-Entfernungsfunktion. Derzeit liefere ich die
Websites mit 410 aus, doch scheinbar interessiert es Google über-
haupt nicht. Welche Möglichkeit bleibt mir da noch?

Viele Grüße,
Stefan

Beitrag melden

– Informationen zu den Bewertungsregeln

Eintrag bei Google aus dem Index entfernen
Armin G. Homepage des Autors 08.05.2003 10:25

sonstiges
– Informationen zu den Bewertungsregeln
Tach auch,

vielleicht kennt jemand das Problem, wie kann ich einen Eintrag bei
Google dauerhaft löschen?

Nicht direkt, aber indirekt. Vor ein paar Wochen ging es glaube ich durch ein paar Blogs und Foren, ob es auch in den Nachrichten war weiss ich nicht: Der Googlebot hat wohl ab und zu Probleme mit der robots.txt, eine Diskussion die ich so auf die Schnelle finden konnte ist hier: http://www.webmasterworld.com/forum3/4008.htm

http://www.google.com/remove.html wirkt
einige Wochen/Monate, dann stehen die Einträge wieder im Index
drin. Nun habe ich so ziemlich alle Varianten ausprobiert, die
mir eingefallen sind, ob nun robots.txt, Metatags oder eben die
obengen. Google-Entfernungsfunktion. Derzeit liefere ich die
Websites mit 410 aus, doch scheinbar interessiert es Google über-
haupt nicht. Welche Möglichkeit bleibt mir da noch?

Da kann ich Dir auch nicht gross helfen, in dem obigen Thread wird eine e-mail Adresse erwaehnt (die ich jetzt irgendwie nicht wiederfinden kann) an die man sich wohl mit solchen Problemen wenden kann (irgendwas mit quality@google.com oder so aehnlich)

Hilft das?

Gruss,
Armin

--
Location: Swindon/Wiltshire/England/UK/Europe/Northern Hemisphere/Planet Earth/Solar System/Milky Way Galaxy/Universe
http://www.ministryofpropaganda.co.uk/
Beitrag melden

–
Informationen zu den Bewertungsregeln
1. Eintrag bei Google aus dem Index entfernen
  
  Stefan Einspender Homepage des Autors 08.05.2003 11:14
  
  sonstiges
  – Informationen zu den Bewertungsregeln
  Hallo Armin,
  
  Der Googlebot hat wohl ab und zu Probleme mit der robots.txt
  
  stimmt und kann mich (leider) auch nicht entsinnen, wann Google sich
  jemals wirklich an die robots.txt gehalten hat. Sie nehmen dann wohl
  die Beschreibungen raus, aber wirklich gelöscht werden gesperrte
  Dateien im Index nicht :-(
  
  Da kann ich Dir auch nicht gross helfen, in dem obigen Thread wird eine e-mail Adresse erwaehnt (die ich jetzt irgendwie nicht wiederfinden kann) an die man sich wohl mit solchen Problemen wenden kann (irgendwas mit quality@google.com oder so aehnlich)
  
  http://www.webmasterworld.com/forum3/4008-2-15.htm#msg29
  
  Hilft das?
  
  Hm ... mal schauen, vielleicht liefere ich auch einfach die ganze
  Domain mit 403 aus, dann bin ich ja mal gespannt, was Google da
  macht.
  
  Viele Grüße,
  Stefan
  
  PS: Wer die Geschichte weiterverfolgen will, hier ist eine der
  Domains, die aus dem Google Index gelöscht werden soll:
  http://www.google.com/search?q=e-webdesign.net
  Beitrag melden
  
  –
  Informationen zu den Bewertungsregeln
  Übersicht
  
  alle Foren
  
  SELFHTML-Forum
  
  anmelden
  
  Benutzerkonto erstellen
  
  Beitrag im Thread-Baum
Content Negotiation über den UserAgent
Michael Schröpl Homepage des Autors 08.05.2003 14:49

webserver
– Informationen zu den Bewertungsregeln
Hi Stefan Einspender,

vielleicht kennt jemand das Problem, wie kann ich einen Eintrag bei
Google dauerhaft löschen? http://www.google.com/remove.html wirkt
einige Wochen/Monate, dann stehen die Einträge wieder im Index drin.

wie sind sie wieder hinein gekommen? Hat Dich der GoogleBot neu besucht und Dein Web traversiert?

Du kannst Dir die Möglichkeiten der Content Negotiation zunutze machen und das Ergebnis eines Seitenzugriffs vom HTTP-Header "UserAgent" abhängig machen: Normale Besucher bekommen die normale Seite, der "UserAgent: GoogleBot" bekommt einen HTTP-Status 404 oder irgendwas in der Art.
(Das ist einer der wenigen Fälle, wo eine serverseitige Browserweiche wirklich Sinn macht, denke ich.)

Was Du nicht auslieferst, kann er nicht indexieren.

Viele Grüße
Michael

--
T'Pol: I apologize if I acted inappropriately.
V'Lar: Not at all. In fact, your bluntness made me reconsider some of my positions. Much as it has now.
(sh:| fo:} ch:] rl:( br:^ n4:( ie:% mo:) va:| de:/ zu:| fl:( ss:) ls:~ js:|)
Auch diese Signatur wird an korrekt konfigurierte Browser gzip-komprimiert übertragen.
Beitrag melden

–
Informationen zu den Bewertungsregeln
1. Content Negotiation über den UserAgent
  
  Stefan Einspender Homepage des Autors 08.05.2003 15:08
  
  webserver
  – Informationen zu den Bewertungsregeln
  Hallo Michael,
  
  wie sind sie wieder hinein gekommen? Hat Dich der GoogleBot neu besucht und Dein Web traversiert?
  
  naja, irgendwo sind die alten Seiten, die es inzwischen nicht mehr
  gibt, mal verlinkt gewesen, viele davon hier im Selfforum. Nachdem
  sie aus dem Google-Index raus waren, kamen sie beim nächsten Such-
  lauf dann wieder rein, obwohl der Googlebot einen 404 oder 410 be-
  kommen hat.
  
  Du kannst Dir die Möglichkeiten der Content Negotiation zunutze machen und das Ergebnis eines Seitenzugriffs vom HTTP-Header "UserAgent" abhängig machen: Normale Besucher bekommen die normale Seite, der "UserAgent: GoogleBot" bekommt einen HTTP-Status 404 oder irgendwas in der Art.
  
  http://www.google.com/search?filter=0&q=inurl%3Aeinspender+site%3Aeinspender.de
  sind 31 Einträge bei Google, keiner davon dürfte im Index stehen,
  weil jede der Seiten entweder 301, 404, 410 zurückgibt oder über
  die robots.txt geblockt ist. Diese Einstellungen sind so schon
  seit vielen Monaten, zuletzt habe ich am 02.01.2003 (!) mal die
  index.html geändert, alle anderen sind schon seit letztem Jahr so,
  per robots.txt ist afaik schon alles seit mehr als zwei Jahren
  gesperrt. Kurzum, Google ist es letztendlich egal, was ich da wo
  nicht indiziert haben will, was irgendwo mal verlinkt wurde, wird
  in den Index aufgenommen, egal ob es die Seite noch gibt oder
  nicht. So scheint es mir zumindest.
  
  Wobei ich gerade sehe, mit 404 liefere ich wohl nix aus, was aber
  dann auch wieder den Grund hat, dass 410 ja der korrekte Status-
  code ist, wenn es die Ressource nicht mehr gibt. Und dann wäre da
  ja noch die robots.txt, ich verstehe es nicht ;-)
  
  Viele Grüße,
  Stefan
  
  (Das ist einer der wenigen Fälle, wo eine serverseitige Browserweiche wirklich Sinn macht, denke ich.)
  
  Was Du nicht auslieferst, kann er nicht indexieren.
  
  Viele Grüße
  Michael
  Beitrag melden
  
  –
  Informationen zu den Bewertungsregeln
  Übersicht
  
  alle Foren
  
  SELFHTML-Forum
  
  anmelden
  
  Benutzerkonto erstellen
  
  Beitrag im Thread-Baum
  1. Content Negotiation über den UserAgent
    
    Michael Schröpl Homepage des Autors 08.05.2003 15:17
    
    webserver
    
    – Informationen zu den Bewertungsregeln
    Hallo Stefan,
    
    gesperrt. Kurzum, Google ist es letztendlich egal, was ich da wo
    nicht indiziert haben will, was irgendwo mal verlinkt wurde, wird
    in den Index aufgenommen, egal ob es die Seite noch gibt oder
    nicht. So scheint es mir zumindest.
    
    aber wie will er die Seite in seinen Index aufnehmen, wenn er den Inhalt von Dir nicht ausgeliefert bekommt?
    Es mag ja sein, daß die Seite über eine "site:your_domain"-Suche dann noch gefunden werden kann, nicht aber über eine Suche nach etwas aus ihrem Inhalt.
    
    Wobei ich gerade sehe, mit 404 liefere ich wohl nix aus, was aber
    dann auch wieder den Grund hat, dass 410 ja der korrekte Status-
    code ist, wenn es die Ressource nicht mehr gibt. Und dann wäre da
    ja noch die robots.txt, ich verstehe es nicht ;-)
    
    Du hast zwei Möglichkeiten: Entweder Du vertraust darauf, daß Google alles richtig macht, oder ... technisch gesehen ist die Alternative nichts anderes als das Suchmaschinen-Spamming, was Google selbst wie die Pest haßt. Aber wenn sie Dir keine andere Möglichkeit lassen?
    
    Viele Grüße
    Michael
    
    --
    T'Pol: I apologize if I acted inappropriately.
    V'Lar: Not at all. In fact, your bluntness made me reconsider some of my positions. Much as it has now.
    (sh:| fo:} ch:] rl:( br:^ n4:( ie:% mo:) va:| de:/ zu:| fl:( ss:) ls:~ js:|)
    Auch diese Signatur wird an korrekt konfigurierte Browser gzip-komprimiert übertragen.
    Beitrag melden
    
    –
    Informationen zu den Bewertungsregeln
    
    Übersicht
    
    alle Foren
    
    SELFHTML-Forum
    
    anmelden
    
    Benutzerkonto erstellen
    
    Beitrag im Thread-Baum
    1. Content Negotiation über den UserAgent
      
      Stefan Einspender Homepage des Autors 08.05.2003 16:04
      
      webserver
      
      – Informationen zu den Bewertungsregeln
      
      Hallo Michael,
      
      aber wie will er die Seite in seinen Index aufnehmen, wenn er den Inhalt von Dir nicht ausgeliefert bekommt?
      Es mag ja sein, daß die Seite über eine "site:your_domain"-Suche dann noch gefunden werden kann, nicht aber über eine Suche nach etwas aus ihrem Inhalt.
      
      sogesehen stimmt es, die Inhalte werden nicht indiziert, da es die
      ja auch nicht mehr gibt. Was ist allerdings mit Seiten, die über
      robots.txt geblockt werden, weil sie einfach nicht im Index
      stehen sollen. Die indiziert ja Google dann trotzdem, was sehr
      ärgerlich ist. Für meine Patchworkseite (also die mit den Icons)
      habe ich da bereits Massnahmen ergriffen, der Googlebot bekommt
      da nicht den richtigen Inhalt sondern nur einen Link auf die
      Homepage des Projektes angeboten.
      
      Du hast zwei Möglichkeiten: Entweder Du vertraust darauf, daß Google alles richtig macht, oder ... technisch gesehen ist die Alternative nichts anderes als das Suchmaschinen-Spamming, was Google selbst wie die Pest haßt. Aber wenn sie Dir keine andere Möglichkeit lassen?
      
      Ich werde mal noch 403 und 404 ausprobieren, auch so, dass es nur
      der Googlebot bekommt. Lustig ist, dass Google selbst für einige
      Programme einen 403 ausliefert, so z.Bsp. für Xenu. Habe ich zu-
      fällig entdeckt, als ich die Links auf Favicon.de gecheckt habe.
      
      Viele Grüße,
      Stefan
      
      Beitrag melden
      
      –
      Informationen zu den Bewertungsregeln
      
      Übersicht
      
      alle Foren
      
      SELFHTML-Forum
      
      anmelden
      
      Benutzerkonto erstellen
      
      Beitrag im Thread-Baum
      1. Content Negotiation über den UserAgent
        
        Michael Schröpl Homepage des Autors 08.05.2003 16:20
        
        webserver
        
        – Informationen zu den Bewertungsregeln
        
        Hallo Stefan,
        
        der Googlebot bekommt. Lustig ist, dass Google selbst für einige
        Programme einen 403 ausliefert, so z.Bsp. für Xenu. Habe ich zu-
        fällig entdeckt, als ich die Links auf Favicon.de gecheckt habe.
        
        die Google-Crawler-Truppe und die Google-Frontend-Gruppe scheinen überhaupt wenig voneinander zu wissen: Das Frontend liefert Seiten gzip-komprimiert aus, aber der Crawler versteht keine komprimierten Seiten ... dabei könnte er selbst viel schneller crawlen, wenn er das täte ...
        
        Viele Grüße
        Michael
        (bei dem der GoogleBot für bestimmte Teil-Projekte die Browser-Statistk anführt, vor dem M$IE!)
        
        --
        T'Pol: I apologize if I acted inappropriately.
        V'Lar: Not at all. In fact, your bluntness made me reconsider some of my positions. Much as it has now.
        (sh:| fo:} ch:] rl:( br:^ n4:( ie:% mo:) va:| de:/ zu:| fl:( ss:) ls:~ js:|)
        Auch diese Signatur wird an korrekt konfigurierte Browser gzip-komprimiert übertragen.
        
        Beitrag melden
        
        –
        Informationen zu den Bewertungsregeln
        
        Übersicht
        
        alle Foren
        
        SELFHTML-Forum
        
        anmelden
        
        Benutzerkonto erstellen
        
        Beitrag im Thread-Baum
        
        Content Negotiation über den UserAgent
        
        Stefan Einspender Homepage des Autors 08.05.2003 16:25
        
        webserver
        
        – Informationen zu den Bewertungsregeln
        
        Hallo Michael,
        
        die Google-Crawler-Truppe und die Google-Frontend-Gruppe scheinen überhaupt wenig voneinander zu wissen: Das Frontend liefert Seiten gzip-komprimiert aus, aber der Crawler versteht keine komprimierten Seiten ... dabei könnte er selbst viel schneller crawlen, wenn er das täte ...
        
        hm ... sowas ist bedauerlich, wenn diese Details dann nicht hinhauen,
        wo die Suchmaschine ja sonst wirklich sehr gut ist. Naja, perfekt
        gibt es eben nicht ;-)
        
        So, kurze Prozeß gemacht, Googlebot bekommt hier nix mehr zu essen:
        
        RewriteEngine On
        RewriteCond %{HTTP_USER_AGENT} ^Googlebot.*
        RewriteRule ^.* - [F]
        
        ErrorDocument 403 "<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN" "http://www.w3.org/TR/html4/strict.dtd"><html><head><title>403 Forbidden</title><meta name="robots" content="noindex"><meta name="robots" content="nofollow"><meta name="robots" content="noarchive"><meta http-equiv="content-type" content="text/html; charset=iso-8859-1"></head><body><h1>403 Forbidden</h1><p>You don't have permission to access any ressource on this server.</p></body></html>
        
        Erstmal nur bei einspender.com und e-webdesign.net, einspender.de
        kommt demnächst auch noch dazu, die muß erstmal vom Zwangs-Catch-
        All-Webhoster Strato zu 1&1 wechseln.
        
        Viele Grüße,
        Stefan
        
        Beitrag melden
        
        –
        Informationen zu den Bewertungsregeln
        
        Übersicht
        
        alle Foren
        
        SELFHTML-Forum
        
        anmelden
        
        Benutzerkonto erstellen
        
        Beitrag im Thread-Baum
  2. Content Negotiation über den UserAgent
    
    Andreas Korthaus 08.05.2003 15:18
    
    webserver
    
    – Informationen zu den Bewertungsregeln
    Hi!
    
    Wobei ich gerade sehe, mit 404 liefere ich wohl nix aus, was aber
    dann auch wieder den Grund hat, dass 410 ja der korrekte Status-
    code ist, wenn es die Ressource nicht mehr gibt. Und dann wäre da
    ja noch die robots.txt, ich verstehe es nicht ;-)
    
    ich könntemir vorstekllen dass google nur 404 akzeptiert. Daher würde ich - wenn die Seiten denn weiter online sein sollen, mal mit Michels Weiche probieren.
    
    Und sonst, hast Du es schonmal hier probiert: http://services.google.com/urlconsole/controller?
    
    Grüße
    Andreas
    Beitrag melden
    
    –
    Informationen zu den Bewertungsregeln
    
    Übersicht
    
    alle Foren
    
    SELFHTML-Forum
    
    anmelden
    
    Benutzerkonto erstellen
    
    Beitrag im Thread-Baum
    1. Content Negotiation über den UserAgent
      
      Stefan Einspender Homepage des Autors 08.05.2003 16:00
      
      webserver
      
      – Informationen zu den Bewertungsregeln
      
      Hallo Andreas,
      
      ich könntemir vorstekllen dass google nur 404 akzeptiert. Daher würde ich - wenn die Seiten denn weiter online sein sollen, mal mit Michels Weiche probieren.
      
      glaube ich so langsam auch, muß ich wohl mal einige 404-Fehler
      produzieren, obwohl ich sowas überhaupt nicht mag :-(
      
      Und sonst, hast Du es schonmal hier probiert: http://services.google.com/urlconsole/controller?
      
      ja, ist besagtes Tool, wo die Einträge einige Wochen aus dem Index
      verschwinden und dann später wieder drin sind. Praktisch vergisst
      Google die dort gemeldeten Domains, findet die aber wieder, falls
      sie noch irgendwo verlinkt sind und trägt sie (nach einer Sperr-
      frist) wieder neu in den Index ein.
      
      Viele Grüße,
      Stefan
      
      Beitrag melden
      
      –
      Informationen zu den Bewertungsregeln
      
      Übersicht
      
      alle Foren
      
      SELFHTML-Forum
      
      anmelden
      
      Benutzerkonto erstellen
      
      Beitrag im Thread-Baum
      1. Content Negotiation über den UserAgent
        
        Andreas Korthaus 08.05.2003 16:39
        
        webserver
        
        – Informationen zu den Bewertungsregeln
        
        Hi!
        
        ja, ist besagtes Tool, wo die Einträge einige Wochen aus dem Index
        verschwinden und dann später wieder drin sind. Praktisch vergisst
        Google die dort gemeldeten Domains, findet die aber wieder, falls
        sie noch irgendwo verlinkt sind und trägt sie (nach einer Sperr-
        frist) wieder neu in den Index ein.
        
        Hm, aber das _kann_ doch nicht sein bei Deiner robots.txt. Das gibts doch nicht!
        Naja, anscheinend doch:
        http://www.google.de/search?q=google+ignoriert+robots.txt
        http://www.google.de/search?q=google+ignore+robots.txt
        
        Ich würde evtl. die IPs von Google sperren(da ich mir vorstellen könnte dass google sich auch mal einen anderen UA schnappt um dämliche Spammer zu überführen, wobei, bringt wohl eh nix denn die IPs sind ja auch bekannt, dann würden die wohl auch andere IPs brauchen, naja... ich werd das mal genauer erroieren ;-) ):
        
        64.68.80.0 - 64.68.87.255
        216.239.32.0 - 216.239.63.255
        
        wären mir bekannt. Sind zwar nicht alles Spider, aber wenn die zu doof sind mit der simplen robots.txt umzugehen dann haben die Google-Mitarbeiter es auch nicht verdient auf Deine Seite zu kommen ;-)
        
        Grüße
        Andreas
        
        Beitrag melden
        
        –
        Informationen zu den Bewertungsregeln
        
        Übersicht
        
        alle Foren
        
        SELFHTML-Forum
        
        anmelden
        
        Benutzerkonto erstellen
        
        Beitrag im Thread-Baum

SELFHTML Forum - Ergänzung zur Dokumentation Übersicht

Stefan Einspender: Eintrag bei Google aus dem Index entfernen

Eintrag bei Google aus dem Index entfernen