morsche: Google-Indizierung

Schönen guten Tag,

ich habe nun schon seit Wochen ein tierisches Problem mit diversen Suchmaschinen insbesondere mit Google. Konkret: manche meiner Seiten werden nicht indiziert, andere schon. Ich habe mich nun schon sehr lange dazu belesen und so ziemlich alles ausprobiert, was ich herausfinden konnte.

Also es sieht so aus:
Ich habe zwei Webseiten programmiert. print4med.de und print4fit.de. Letztere beinhaltet einen Shop und arbeitet mit Sessions und Cookies, da es eine Warenkorbfunktion gibt. Erstere beinhaltet zwar dynamsiche Inhalte, ist aber nicht in dem Sinne interaktiv, als dass irgendwelche Daten vom Beutzer gespeichert werden müssten und verwendet daher auch keine Session oder Cookies.
Anfangs habe ich mich nur gewundert. Denn print4med.de wird bei Google gelistet (ich prüfe das immer mit site:www.domain.de, um die indizierten Seiten abzurufen) und print4fit.de wird nicht gelistet.

Wichtig ist vielleicht noch zu erwähnen, dass bei print4fit.de vorher andere Inhalte lagen, die schon seit Mai 2005 nicht mehr von Google aktualisiert wurden und nun, trotz der neuen Inhalte immer noch bei Google gelistet werden. Von den neuen Inhalten wird nur die Startseite gelistet.

Dann habe ich gerausgefunden, dass Google ganz klar die Indizierung verweigert, falls der Bot sog. Duplicate Content ausmacht. Und bei den Sessions kann es wohl dazu kommen, dass mehrere Bots die Seite aufsuchen, immer eine neue SessionID erhalten aber stets den gleichen Inhalt geliefert bekommen und daher annehmen, es handele sich um unterschiedliche URIs mit dem gleichen Inhalt -> keine Indizierung. Um dies zu umgehen habe ich für den Google-Bot die Sessions deaktiviert und zwar mit folgendem Code:

$host = @gethostbyaddr($_SERVER['REMOTE_ADDR']);

if(!preg_match('/googlebot/i', $_SERVER['HTTP_USER_AGENT']) and !preg_match('/googlebot/i', $host))
{
  session_set_cookie_params(60*60*24);
  session_name ("session");
  session_start();
  $session=session_id();
}

Ich dachte, dass dann der Google-Bot einfach keine Session-ID erhält und somit auch den Warenkorb nicht richtig benutzten kann, aber das ist ja egal.
Das ist nun schon zwei Wochen her und der Google-Bot kommt laut meinen Statistiken regelmäßig auf die Seite, aber wie immer wird einzig und allein die Startseite indiziert.
Bei einer anderen Katalog-Seite von mir habe ich genau das gleiche Problem.
Vor längerer Zeit habe ich mal ein Perl-CMS programmiert und dabei eine eigene Session-Umgebung entwickelt. Diese Seite wird wie gewollt indiziert. Auch habe ich schon einige Foren gesehen, die samt der SessionID bei Google gelistet werden.
Ich verwende keine robots.txt.
Aus der Verzweiflung heraus habe ich es auch mal mit den Google-Sitemaps probiert, aber das hat überhaupt gar nicht geklappt. Die Beta hat wohl noch einige Macken.

Mit der Yahoo-Engine habe ich übrigens das gleiche Problem.

Wenn mir jemand irgendwie weiterhelfen könnte, wäre das klasse.

Gruß und Danke schonmal,
morsche

  1. Hallo,

    google sagt ganz klar auf der homepage, dass automatisch generierte seite kaum indiziert werden und urls mit mehr als 2 parametern (was bei dem shop ja zutrifft) nicht verfolgt werden, weil der drawler dabei probleme hat!

    http://www.google.de/intl/de/webmasters/2.html

    matthias

    1. Hallo Freunde des gehobenen Forumsgenusses,

      google sagt ganz klar auf der homepage, dass automatisch generierte seite kaum indiziert werden und urls mit mehr als 2 parametern (was bei dem shop ja zutrifft) nicht verfolgt werden, weil der drawler dabei probleme hat!

      Der Crawler hat damit keine Probleme, Google hat nur erkannt,
      dass viele Parameter häufig z.B. auf unterschieldiche Sortierungen
      der selben Seite hindeuten (o.ä.) und indexiert Seiten mit vielen
      Parametern daher nicht bzw. nur bei einem sehr hohen PageRank.

      Deshalb ist es vorteilhaft, URLs mittels mod_rewrite schönzubiegen
      (solche URLs sind dann auch viel benutzerfreundlicher).

      Gruß
      Alexander Brock

      --
      A
      1. Hallo, danke für die Antworten. Vor Mod-Rewrite habe ich mich jedes Mal aufs Neue gedrückt und gerade sitze ich, inspiriert von einer Typo3-Doku, schon wieder daran. Vielleicht komme ich ja dieses Mal weiter. Wenn ihr ein paar nützliche Links habt, nur her damit :)

        Was die Anzahl der Parameter betrifft, ließe sich bestimmt ohne Mod-Rewrite auf die Schnelle auch was hinbiegen, aber es werden ja nichtmal die Hauptmenüpunkte indiziert, die nur einen Parameter beinhalten - z.B.: http://www.print4fit.de/index.php?p=kampagnen
        Und außerdem fliegen bei Google auch immer noch die uralten Seitentitel und Descriptions rum, die mit URIs vernüpft sind, die es schon lange nicht mehr gibt. Kann es noch einen weiteren Grund dafür geben, dass nichtmal die Seiten mit nur einem Parameter nicht indiziert werden?

        Danke und Grüße,
        Florian

        1. Hallo morsche.

          Wenn ihr ein paar nützliche Links habt, nur her damit :)

          Immer wieder gerne: PCRE Evaluator

          Und außerdem fliegen bei Google auch immer noch die uralten Seitentitel und Descriptions rum, die mit URIs vernüpft sind, die es schon lange nicht mehr gibt.

          Wenn du dir einen Account bei Google besorgst, kannst du diese manuell zum Löschen in Auftrag geben. (Irgendwo auf der Services-Seite)

          Kann es noch einen weiteren Grund dafür geben, dass nichtmal die Seiten mit nur einem Parameter nicht indiziert werden?

          … nicht mal … nicht?

          Google indiziert alles, was irgendwo verlinkt wurde ggf. auch per manueller Anmeldung. Nach einer optionalen Sandbox-Phase listet Google alle auffindbaren Seiten einer Internetpräsenz.

          Ob etwas indiziert wurde, findest du per Suchterm site:http://www.google.de/search?hl=de&q=site:http://example.org&btnG=Suche&meta= heraus, wobei die jeweilige URL natürlich angegeben werden muss.

          Einen schönen Freitag noch.

          Gruß, Ashura

          --
          Last Tears Keep Calling
          See Angels Falling
          Black Shadows In Your Head
          And One Eye For The Dead
          1. Hallo.

            Ob etwas indiziert wurde, findest du per Suchterm site:http://www.google.de/search?hl=de&q=site:http://example.org&btnG=Suche&meta= heraus, …

            Was für ein Chaos.

            Besser: site:http://example.org

            Einen schönen Freitag noch.

            Gruß, Ashura

            --
            Last Tears Keep Calling
            See Angels Falling
            Black Shadows In Your Head
            And One Eye For The Dead
            1. ja, so habe ich es auch immer überprüft (site: ...). Und ich habe wie oben erwähnt schon seit Wochen mit der Indizierung dieser Seiten zu tun, habe sie mehrmals nach verschiedenen Änderungen hinsichtlich Suchmaschienenoptimierung neu eingetragen, worauf die Bots auch direkt auf der Seite aufgetaucht sind und außerdem habe ich es mal mit den Google-Sitemaps versucht - allerdings alles ohne Erfolg. Google bleibt stur und listet nur die neue Startseite.

              Noch etwas am Rande:
              Ich habe gerade ein paar Mod-Rewrite Tests durchgeführt und es tut sich leider nichts. Ich nehme an, dass nicht jeder Webhoster das Mod-Rewrite Modul installiert hat, oder?

              Ebenfalls noch einen schönen Freitag :)

              1. Und noch etwas:
                print4med.de wird ja von Google indiziert und verwendet ebenfalls die Parameter. Es liegt sogar fast das gleiche System dahinter, nur das ich bei print4fit.de noch eine Shopfunktion und somit Sessions und Cookies hinzugefügt habe. Daher vermute ich, dass es etwas damit zu tun hat.

              2. Hallo morsche.

                ja, so habe ich es auch immer überprüft (site: ...). Und ich habe wie oben erwähnt schon seit Wochen mit der Indizierung dieser Seiten zu tun, habe sie mehrmals nach verschiedenen Änderungen hinsichtlich Suchmaschienenoptimierung neu eingetragen, worauf die Bots auch direkt auf der Seite aufgetaucht sind und außerdem habe ich es mal mit den Google-Sitemaps versucht - allerdings alles ohne Erfolg. Google bleibt stur und listet nur die neue Startseite.

                Ja, kann ich nachvollziehen, war mit meinem kürzlich abgeschlossenen Projekt ebenso. Zuerst wurde gar nichts aufgelistet, dann einige Wochen lang nur die Startseite (Sandbox-Phase) und nun ist jede einzelne Seite indiziert, teilweise sogar schon wieder veraltet.

                Ich habe gerade ein paar Mod-Rewrite Tests durchgeführt und es tut sich leider nichts. Ich nehme an, dass nicht jeder Webhoster das Mod-Rewrite Modul installiert hat, oder?

                Richtig. Frage am besten einfach deinen Hoster selbst.

                Ebenfalls noch einen schönen Freitag :)

                Danke.

                Gruß, Ashura

                --
                Last Tears Keep Calling
                See Angels Falling
                Black Shadows In Your Head
                And One Eye For The Dead
                1. Und noch mal morsche,

                  ich habe das Mod-Rewrite gerade mal bei einem anderen Provider getestet (im Vergleich zu dem, bei dem es nicht funktioniert ein Billiganbieter) und da funktioniert es wunderbar. Werde das beim nächsten Projekt verwenden - gefällt mir nun doch ganz gut!

                  Das mit dieser Sandbox-Phase ist mir neu. Das wäre ja nochmal ein Hoffnungsschimmer. Meinst du, ich sollte dennoch versuchen, bei max. zwei Paramtern zu bleiben? Ich hatte das in den Google FAQ auch schonmal gelesen und es so verstanden, dass es nur empfohlen wird, max. zwei Parameter zu verwenden, die Indizierung aber auch mit mehreren funktionieren kann.

                  Gruß,
                  Florian

                  1. Hallo morsche.

                    Meinst du, ich sollte dennoch versuchen, bei max. zwei Paramtern zu bleiben?

                    Ohne mod_rewrite oder andersartig organisierter URLs ist dies empfehlenswert, ja.

                    Einen schönen Freitag noch.

                    Gruß, Ashura

                    --
                    Last Tears Keep Calling
                    See Angels Falling
                    Black Shadows In Your Head
                    And One Eye For The Dead
                    1. Also ich habe mal die genannte print4med.de Seite in Google gesucht und selbst folgende URL wird gelistet:

                      http://www.print4med.de/plattform.php?section=pf_produkte&p_cat=broschuere&p_content=variationen&PHPSESSID=d39d3c21c2a91b1b266237d166b3081c

                      Vier Parameter wovon einer sogar eine SessionID ist. Was soll man da noch glauben... Und in Sachen Sandbox habe ich gelesen, dass dies nur bedeutet, dass die entsprechenden Seiten nicht besonders weit oben in den Google Ergebnissen angezeigt werden, aber trotzdem im Index vorhanden sind, also mittels site:www.domain.de gefunden werden müssten... Da weiß ich jetzt wirklich nicht mehr, was ich noch machen soll. Die eine Seite wird trotz vieler Parameter und trotz SessionID gelistet und die andere darf noch nicht mal im Sandkasten spielen.

                      Danke übrigens für den Link - so etwas habe ich schon lange gesucht.

                      1. Hallo morsche.

                        Und in Sachen Sandbox habe ich gelesen, dass dies nur bedeutet, dass die entsprechenden Seiten nicht besonders weit oben in den Google Ergebnissen angezeigt werden, aber trotzdem im Index vorhanden sind, also mittels site:www.domain.de gefunden werden müssten...

                        Eigentlich stellt die Sandbox eine Zwischenstufe dar, in der Google (auf welche Art auch immer) die Seiten zwar bereits indiziert aber noch nicht unter den Suchergebnissen anzeigt. Die Gründe hierfür können unterschiedlich sein.

                        Da weiß ich jetzt wirklich nicht mehr, was ich noch machen soll. Die eine Seite wird trotz vieler Parameter und trotz SessionID gelistet und die andere darf noch nicht mal im Sandkasten spielen.

                        Hab' Geduld, mehr kannst du auch nicht tun. Die Suchmaschinen kommen von ganz allein, wenn man keine grob fahrlässigen Fehler gemacht hat, um dies zu verhindern.

                        Danke übrigens für den Link - so etwas habe ich schon lange gesucht.

                        Keine Ursache.

                        Einen schönen Freitag noch.

                        Gruß, Ashura

                        --
                        sh:( fo:} ch:? rl:( br: n4:~ ie:{ mo:| va:) de:> zu:} fl:( ss:) ls:[ js:|
                        <mathbr:del.icio.us />
  2. Hi,

    mit Parametern wie ?p=kampagnen_werbemittel&kamp=2&kat=4 machst Du es Deinem Script zwar einfach, wie gesagt Google jedoch schwer. Mach' doch einfach ?p=kampagnen_werbemittel-2-4 oder noch besser ?p=kampagnen_werbemittel_Fitness-Studio draus.

    freundliche Grüße
    Ingo