Stefan Einspender: Eintrag bei Google aus dem Index entfernen

Hallo ForumsleserInnen,

vielleicht kennt jemand das Problem, wie kann ich einen Eintrag bei
Google dauerhaft löschen? http://www.google.com/remove.html wirkt
einige Wochen/Monate, dann stehen die Einträge wieder im Index
drin. Nun habe ich so ziemlich alle Varianten ausprobiert, die
mir eingefallen sind, ob nun robots.txt, Metatags oder eben die
obengen. Google-Entfernungsfunktion. Derzeit liefere ich die
Websites mit 410 aus, doch scheinbar interessiert es Google über-
haupt nicht. Welche Möglichkeit bleibt mir da noch?

Viele Grüße,
Stefan

  1. Tach auch,

    vielleicht kennt jemand das Problem, wie kann ich einen Eintrag bei
    Google dauerhaft löschen?

    Nicht direkt, aber indirekt. Vor ein paar Wochen ging es glaube ich durch ein paar Blogs und Foren, ob es auch in den Nachrichten war weiss ich nicht: Der Googlebot hat wohl ab und zu Probleme mit der robots.txt, eine Diskussion die ich so auf die Schnelle finden konnte ist hier: http://www.webmasterworld.com/forum3/4008.htm

    http://www.google.com/remove.html wirkt
    einige Wochen/Monate, dann stehen die Einträge wieder im Index
    drin. Nun habe ich so ziemlich alle Varianten ausprobiert, die
    mir eingefallen sind, ob nun robots.txt, Metatags oder eben die
    obengen. Google-Entfernungsfunktion. Derzeit liefere ich die
    Websites mit 410 aus, doch scheinbar interessiert es Google über-
    haupt nicht. Welche Möglichkeit bleibt mir da noch?

    Da kann ich Dir auch nicht gross helfen, in dem obigen Thread wird eine e-mail Adresse erwaehnt (die ich jetzt irgendwie nicht wiederfinden kann) an die man sich wohl mit solchen Problemen wenden kann (irgendwas mit quality@google.com oder so aehnlich)

    Hilft das?

    Gruss,
    Armin

    --
    Location: Swindon/Wiltshire/England/UK/Europe/Northern Hemisphere/Planet Earth/Solar System/Milky Way Galaxy/Universe
    http://www.ministryofpropaganda.co.uk/
    1. Hallo Armin,

      Der Googlebot hat wohl ab und zu Probleme mit der robots.txt

      stimmt und kann mich (leider) auch nicht entsinnen, wann Google sich
      jemals wirklich an die robots.txt gehalten hat. Sie nehmen dann wohl
      die Beschreibungen raus, aber wirklich gelöscht werden gesperrte
      Dateien im Index nicht :-(

      Da kann ich Dir auch nicht gross helfen, in dem obigen Thread wird eine e-mail Adresse erwaehnt (die ich jetzt irgendwie nicht wiederfinden kann) an die man sich wohl mit solchen Problemen wenden kann (irgendwas mit quality@google.com oder so aehnlich)

      http://www.webmasterworld.com/forum3/4008-2-15.htm#msg29

      Hilft das?

      Hm ... mal schauen, vielleicht liefere ich auch einfach die ganze
      Domain mit 403 aus, dann bin ich ja mal gespannt, was Google da
      macht.

      Viele Grüße,
      Stefan

      PS: Wer die Geschichte weiterverfolgen will, hier ist eine der
          Domains, die aus dem Google Index gelöscht werden soll:
          http://www.google.com/search?q=e-webdesign.net

  2. Hi Stefan Einspender,

    vielleicht kennt jemand das Problem, wie kann ich einen Eintrag bei
    Google dauerhaft löschen? http://www.google.com/remove.html wirkt
    einige Wochen/Monate, dann stehen die Einträge wieder im Index drin.

    wie sind sie wieder hinein gekommen? Hat Dich der GoogleBot neu besucht und Dein Web traversiert?

    Du kannst Dir die Möglichkeiten der Content Negotiation zunutze machen und das Ergebnis eines Seitenzugriffs vom HTTP-Header "UserAgent" abhängig machen: Normale Besucher bekommen die normale Seite, der "UserAgent: GoogleBot" bekommt einen HTTP-Status 404 oder irgendwas in der Art.
    (Das ist einer der wenigen Fälle, wo eine serverseitige Browserweiche wirklich Sinn macht, denke ich.)

    Was Du nicht auslieferst, kann er nicht indexieren.

    Viele Grüße
          Michael

    --
    T'Pol: I apologize if I acted inappropriately.
    V'Lar: Not at all. In fact, your bluntness made me reconsider some of my positions. Much as it has now.
    (sh:| fo:} ch:] rl:( br:^ n4:( ie:% mo:) va:| de:/ zu:| fl:( ss:) ls:~ js:|)
    Auch diese Signatur wird an korrekt konfigurierte Browser gzip-komprimiert übertragen.
    1. Hallo Michael,

      wie sind sie wieder hinein gekommen? Hat Dich der GoogleBot neu besucht und Dein Web traversiert?

      naja, irgendwo sind die alten Seiten, die es inzwischen nicht mehr
      gibt, mal verlinkt gewesen, viele davon hier im Selfforum. Nachdem
      sie aus dem Google-Index raus waren, kamen sie beim nächsten Such-
      lauf dann wieder rein, obwohl der Googlebot einen 404 oder 410 be-
      kommen hat.

      Du kannst Dir die Möglichkeiten der Content Negotiation zunutze machen und das Ergebnis eines Seitenzugriffs vom HTTP-Header "UserAgent" abhängig machen: Normale Besucher bekommen die normale Seite, der "UserAgent: GoogleBot" bekommt einen HTTP-Status 404 oder irgendwas in der Art.

      http://www.google.com/search?filter=0&q=inurl%3Aeinspender+site%3Aeinspender.de
      sind 31 Einträge bei Google, keiner davon dürfte im Index stehen,
      weil jede der Seiten entweder 301, 404, 410 zurückgibt oder über
      die robots.txt geblockt ist. Diese Einstellungen sind so schon
      seit vielen Monaten, zuletzt habe ich am 02.01.2003 (!) mal die
      index.html geändert, alle anderen sind schon seit letztem Jahr so,
      per robots.txt ist afaik schon alles seit mehr als zwei Jahren
      gesperrt. Kurzum, Google ist es letztendlich egal, was ich da wo
      nicht indiziert haben will, was irgendwo mal verlinkt wurde, wird
      in den Index aufgenommen, egal ob es die Seite noch gibt oder
      nicht. So scheint es mir zumindest.

      Wobei ich gerade sehe, mit 404 liefere ich wohl nix aus, was aber
      dann auch wieder den Grund hat, dass 410 ja der korrekte Status-
      code ist, wenn es die Ressource nicht mehr gibt. Und dann wäre da
      ja noch die robots.txt, ich verstehe es nicht ;-)

      Viele Grüße,
      Stefan

      (Das ist einer der wenigen Fälle, wo eine serverseitige Browserweiche wirklich Sinn macht, denke ich.)

      Was Du nicht auslieferst, kann er nicht indexieren.

      Viele Grüße
            Michael

      1. Hallo Stefan,

        gesperrt. Kurzum, Google ist es letztendlich egal, was ich da wo
        nicht indiziert haben will, was irgendwo mal verlinkt wurde, wird
        in den Index aufgenommen, egal ob es die Seite noch gibt oder
        nicht. So scheint es mir zumindest.

        aber wie will er die Seite in seinen Index aufnehmen, wenn er den Inhalt von Dir nicht ausgeliefert bekommt?
        Es mag ja sein, daß die Seite über eine "site:your_domain"-Suche dann noch gefunden werden kann, nicht aber über eine Suche nach etwas aus ihrem Inhalt.

        Wobei ich gerade sehe, mit 404 liefere ich wohl nix aus, was aber
        dann auch wieder den Grund hat, dass 410 ja der korrekte Status-
        code ist, wenn es die Ressource nicht mehr gibt. Und dann wäre da
        ja noch die robots.txt, ich verstehe es nicht ;-)

        Du hast zwei Möglichkeiten: Entweder Du vertraust darauf, daß Google alles richtig macht, oder ... technisch gesehen ist die Alternative nichts anderes als das Suchmaschinen-Spamming, was Google selbst wie die Pest haßt. Aber wenn sie Dir keine andere Möglichkeit lassen?

        Viele Grüße
              Michael

        --
        T'Pol: I apologize if I acted inappropriately.
        V'Lar: Not at all. In fact, your bluntness made me reconsider some of my positions. Much as it has now.
        (sh:| fo:} ch:] rl:( br:^ n4:( ie:% mo:) va:| de:/ zu:| fl:( ss:) ls:~ js:|)
        Auch diese Signatur wird an korrekt konfigurierte Browser gzip-komprimiert übertragen.
        1. Hallo Michael,

          aber wie will er die Seite in seinen Index aufnehmen, wenn er den Inhalt von Dir nicht ausgeliefert bekommt?
          Es mag ja sein, daß die Seite über eine "site:your_domain"-Suche dann noch gefunden werden kann, nicht aber über eine Suche nach etwas aus ihrem Inhalt.

          sogesehen stimmt es, die Inhalte werden nicht indiziert, da es die
          ja auch nicht mehr gibt. Was ist allerdings mit Seiten, die über
          robots.txt geblockt werden, weil sie einfach nicht im Index
          stehen sollen. Die indiziert ja Google dann trotzdem, was sehr
          ärgerlich ist. Für meine Patchworkseite (also die mit den Icons)
          habe ich da bereits Massnahmen ergriffen, der Googlebot bekommt
          da nicht den richtigen Inhalt sondern nur einen Link auf die
          Homepage des Projektes angeboten.

          Du hast zwei Möglichkeiten: Entweder Du vertraust darauf, daß Google alles richtig macht, oder ... technisch gesehen ist die Alternative nichts anderes als das Suchmaschinen-Spamming, was Google selbst wie die Pest haßt. Aber wenn sie Dir keine andere Möglichkeit lassen?

          Ich werde mal noch 403 und 404 ausprobieren, auch so, dass es nur
          der Googlebot bekommt. Lustig ist, dass Google selbst für einige
          Programme einen 403 ausliefert, so z.Bsp. für Xenu. Habe ich zu-
          fällig entdeckt, als ich die Links auf Favicon.de gecheckt habe.

          Viele Grüße,
          Stefan

          1. Hallo Stefan,

            der Googlebot bekommt. Lustig ist, dass Google selbst für einige
            Programme einen 403 ausliefert, so z.Bsp. für Xenu. Habe ich zu-
            fällig entdeckt, als ich die Links auf Favicon.de gecheckt habe.

            die Google-Crawler-Truppe und die Google-Frontend-Gruppe scheinen überhaupt wenig voneinander zu wissen: Das Frontend liefert Seiten gzip-komprimiert aus, aber der Crawler versteht keine komprimierten Seiten ... dabei könnte er selbst viel schneller crawlen, wenn er das täte ...

            Viele Grüße
                  Michael
            (bei dem der GoogleBot für bestimmte Teil-Projekte die Browser-Statistk anführt, vor dem M$IE!)

            --
            T'Pol: I apologize if I acted inappropriately.
            V'Lar: Not at all. In fact, your bluntness made me reconsider some of my positions. Much as it has now.
            (sh:| fo:} ch:] rl:( br:^ n4:( ie:% mo:) va:| de:/ zu:| fl:( ss:) ls:~ js:|)
            Auch diese Signatur wird an korrekt konfigurierte Browser gzip-komprimiert übertragen.
            1. Hallo Michael,

              die Google-Crawler-Truppe und die Google-Frontend-Gruppe scheinen überhaupt wenig voneinander zu wissen: Das Frontend liefert Seiten gzip-komprimiert aus, aber der Crawler versteht keine komprimierten Seiten ... dabei könnte er selbst viel schneller crawlen, wenn er das täte ...

              hm ... sowas ist bedauerlich, wenn diese Details dann nicht hinhauen,
              wo die Suchmaschine ja sonst wirklich sehr gut ist. Naja, perfekt
              gibt es eben nicht ;-)

              So, kurze Prozeß gemacht, Googlebot bekommt hier nix mehr zu essen:

              RewriteEngine On
              RewriteCond %{HTTP_USER_AGENT} ^Googlebot.*
              RewriteRule ^.* - [F]

              ErrorDocument 403 "<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN" "http://www.w3.org/TR/html4/strict.dtd"><html><head><title>403 Forbidden</title><meta name="robots" content="noindex"><meta name="robots" content="nofollow"><meta name="robots" content="noarchive"><meta http-equiv="content-type" content="text/html; charset=iso-8859-1"></head><body><h1>403 Forbidden</h1><p>You don't have permission to access any ressource on this server.</p></body></html>

              Erstmal nur bei einspender.com und e-webdesign.net, einspender.de
              kommt demnächst auch noch dazu, die muß erstmal vom Zwangs-Catch-
              All-Webhoster Strato zu 1&1 wechseln.

              Viele Grüße,
              Stefan

      2. Hi!

        Wobei ich gerade sehe, mit 404 liefere ich wohl nix aus, was aber
        dann auch wieder den Grund hat, dass 410 ja der korrekte Status-
        code ist, wenn es die Ressource nicht mehr gibt. Und dann wäre da
        ja noch die robots.txt, ich verstehe es nicht ;-)

        ich könntemir vorstekllen dass google nur 404 akzeptiert. Daher würde ich - wenn die Seiten denn weiter online sein sollen, mal mit Michels Weiche probieren.

        Und sonst, hast Du es schonmal hier probiert: http://services.google.com/urlconsole/controller?

        Grüße
        Andreas

        1. Hallo Andreas,

          ich könntemir vorstekllen dass google nur 404 akzeptiert. Daher würde ich - wenn die Seiten denn weiter online sein sollen, mal mit Michels Weiche probieren.

          glaube ich so langsam auch, muß ich wohl mal einige 404-Fehler
          produzieren, obwohl ich sowas überhaupt nicht mag :-(

          Und sonst, hast Du es schonmal hier probiert: http://services.google.com/urlconsole/controller?

          ja, ist besagtes Tool, wo die Einträge einige Wochen aus dem Index
          verschwinden und dann später wieder drin sind. Praktisch vergisst
          Google die dort gemeldeten Domains, findet die aber wieder, falls
          sie noch irgendwo verlinkt sind und trägt sie (nach einer Sperr-
          frist) wieder neu in den Index ein.

          Viele Grüße,
          Stefan

          1. Hi!

            ja, ist besagtes Tool, wo die Einträge einige Wochen aus dem Index
            verschwinden und dann später wieder drin sind. Praktisch vergisst
            Google die dort gemeldeten Domains, findet die aber wieder, falls
            sie noch irgendwo verlinkt sind und trägt sie (nach einer Sperr-
            frist) wieder neu in den Index ein.

            Hm, aber das _kann_ doch nicht sein bei Deiner robots.txt. Das gibts doch nicht!
            Naja, anscheinend doch:
            http://www.google.de/search?q=google+ignoriert+robots.txt
            http://www.google.de/search?q=google+ignore+robots.txt

            Ich würde evtl. die IPs von Google sperren(da ich mir vorstellen könnte dass google sich auch mal einen anderen UA schnappt um dämliche Spammer zu überführen, wobei, bringt wohl eh nix denn die IPs sind ja auch bekannt, dann würden die wohl auch andere IPs brauchen, naja... ich werd das mal genauer erroieren ;-) ):

            64.68.80.0 - 64.68.87.255
            216.239.32.0 - 216.239.63.255

            wären mir bekannt. Sind zwar nicht alles Spider, aber wenn die zu doof sind mit der simplen robots.txt umzugehen dann haben die Google-Mitarbeiter es auch nicht verdient auf Deine Seite zu kommen ;-)

            Grüße
            Andreas