Schönen guten Tag,
ich habe nun schon seit Wochen ein tierisches Problem mit diversen Suchmaschinen insbesondere mit Google. Konkret: manche meiner Seiten werden nicht indiziert, andere schon. Ich habe mich nun schon sehr lange dazu belesen und so ziemlich alles ausprobiert, was ich herausfinden konnte.
Also es sieht so aus:
Ich habe zwei Webseiten programmiert. print4med.de und print4fit.de. Letztere beinhaltet einen Shop und arbeitet mit Sessions und Cookies, da es eine Warenkorbfunktion gibt. Erstere beinhaltet zwar dynamsiche Inhalte, ist aber nicht in dem Sinne interaktiv, als dass irgendwelche Daten vom Beutzer gespeichert werden müssten und verwendet daher auch keine Session oder Cookies.
Anfangs habe ich mich nur gewundert. Denn print4med.de wird bei Google gelistet (ich prüfe das immer mit site:www.domain.de, um die indizierten Seiten abzurufen) und print4fit.de wird nicht gelistet.
Wichtig ist vielleicht noch zu erwähnen, dass bei print4fit.de vorher andere Inhalte lagen, die schon seit Mai 2005 nicht mehr von Google aktualisiert wurden und nun, trotz der neuen Inhalte immer noch bei Google gelistet werden. Von den neuen Inhalten wird nur die Startseite gelistet.
Dann habe ich gerausgefunden, dass Google ganz klar die Indizierung verweigert, falls der Bot sog. Duplicate Content ausmacht. Und bei den Sessions kann es wohl dazu kommen, dass mehrere Bots die Seite aufsuchen, immer eine neue SessionID erhalten aber stets den gleichen Inhalt geliefert bekommen und daher annehmen, es handele sich um unterschiedliche URIs mit dem gleichen Inhalt -> keine Indizierung. Um dies zu umgehen habe ich für den Google-Bot die Sessions deaktiviert und zwar mit folgendem Code:
$host = @gethostbyaddr($_SERVER['REMOTE_ADDR']);
if(!preg_match('/googlebot/i', $_SERVER['HTTP_USER_AGENT']) and !preg_match('/googlebot/i', $host))
{
session_set_cookie_params(60*60*24);
session_name ("session");
session_start();
$session=session_id();
}
Ich dachte, dass dann der Google-Bot einfach keine Session-ID erhält und somit auch den Warenkorb nicht richtig benutzten kann, aber das ist ja egal.
Das ist nun schon zwei Wochen her und der Google-Bot kommt laut meinen Statistiken regelmäßig auf die Seite, aber wie immer wird einzig und allein die Startseite indiziert.
Bei einer anderen Katalog-Seite von mir habe ich genau das gleiche Problem.
Vor längerer Zeit habe ich mal ein Perl-CMS programmiert und dabei eine eigene Session-Umgebung entwickelt. Diese Seite wird wie gewollt indiziert. Auch habe ich schon einige Foren gesehen, die samt der SessionID bei Google gelistet werden.
Ich verwende keine robots.txt.
Aus der Verzweiflung heraus habe ich es auch mal mit den Google-Sitemaps probiert, aber das hat überhaupt gar nicht geklappt. Die Beta hat wohl noch einige Macken.
Mit der Yahoo-Engine habe ich übrigens das gleiche Problem.
Wenn mir jemand irgendwie weiterhelfen könnte, wäre das klasse.
Gruß und Danke schonmal,
morsche