mod_rewrite und suchmachinen
Chris
- sonstiges
0 Cruz1 Fabian St.0 Chris0 Ingo Turski
0 Chris0 MudGuard
mir ist gestern was aufgefallen und ich hab darauf nicht wirklich ne antwort:
können suchmachinen mod_rewrite seiten erkennen? wenn ja, wie?
bisher dachte ich immer, es sei ne serverinterne weiterleitung, praktisch wie nen forward bei jsp.
meine eigene seite ist fast vollständig über mod_rewrite realisiert. wenn suchmachinen meine seite täglich indexieren, besuchen sie die üblichen links die jeder andere beim besuch der seite auch klicken würde, nur sind die .html seiten genauso wie die realen aufrufe der seiten bei google indexiert.
beispiel
mod_rewrite:
http://www.scar4u.de/kontakt/index.html
real:
http://www.scar4u.de/index.php?site=kontakt/index.html
wieso kennt google die realen aufrufe "aller" seiten? gemerkt hab ich das nur, weil google noch nie ein PR vergeben hat und jetzt durch nen zufall aufgefallen ist, das eben die realen aufrufe einen PR haben?
Hi Chris,
Google kann auf keinen Fall den mod_rewrite erkennen. Google funktioniert eigentlich auch genau wie ein Browser, er gibt eine URL ein, kriegt HTML Code zurück und macht dann etwas damit. Allerdings ist Google auch ein Spider und durchsucht jede Ecke von deinem Webspace. Was passiert denn z.B., wenn man einfach mal www.deinedomain.de eingibt? Wird mann da auf ein PHP Script umgeleitet, oder auf eine bereits mod_rewritete URL? Und was ist mit den Links, die du in deinen Webseiten gesetzt hast? Sind es direkte Links auf ein PHP Skript oder hast du sie alle gemäß deinen mod_rewrite Regeln umgearbeitet? Wenn es irgendwo eine Lücke gibt, findet Google das! Es muss alles Wasserdicht sein, dann hat auch Google keine Chance.
Gruß,
Cruz
Hi!
Google kann auf keinen Fall den mod_rewrite erkennen. Google funktioniert eigentlich auch genau wie ein Browser, er gibt eine URL ein, kriegt HTML Code zurück und macht dann etwas damit. Allerdings ist Google auch ein Spider und durchsucht jede Ecke von deinem Webspace. Was passiert denn z.B., wenn man einfach mal www.deinedomain.de eingibt? Wird mann da auf ein PHP Script umgeleitet, oder auf eine bereits mod_rewritete URL? Und was ist mit den Links, die du in deinen Webseiten gesetzt hast? Sind es direkte Links auf ein PHP Skript oder hast du sie alle gemäß deinen mod_rewrite Regeln umgearbeitet? Wenn es irgendwo eine Lücke gibt, findet Google das! Es muss alles Wasserdicht sein, dann hat auch Google keine Chance.
Eine Möglichkeit hat Google dennoch, dynamische Seiten zu erkennen - selbst wenn mod_rewrite verwendet wird, nämlich am HTTP-Response Header. Handelt es sich um eine dynamische, von PHP generierte Seite so hinterlässt der Server (meist) einen Hinweis darauf. So gibt die Zeile X-Powered-By: PHP/5.0.3 an, dass die Seite vor der Auslieferung vom PHP-Interpreter (Version 5.0.3) geparst worden ist. Dies kann man jedoch auch verhindern, indem man in der php.ini die Zeile expose_php auf off setzt. Damit gibt es IMHO überhaupt keine Möglichkeit mehr, dynamische Seiten zu erkennen.
Grüße,
Fabian St.
nen versuch wärs zwar wert das abzuschalten, aber die datei auf die weitergeleitet wird. sollte für google dadurch ja trotzdem noch unbekannt bleiben?
grüße Chris
Hi,
Dies kann man jedoch auch verhindern, indem man in der php.ini die Zeile expose_php auf off setzt. Damit gibt es IMHO überhaupt keine Möglichkeit mehr, dynamische Seiten zu erkennen.
Es kann noch weitere Merkmale geben, insb. das Fehlen von Last-Modified und Etag.
Zu den Parametern: die kann Google sich gemerkt haben, wenn die Seiten früher so ausgegeben oder vrlinkt wurden. Bei meiner Seite hatte es Monate gedauert, bis Google die Parameter nicht mehr anforderte bzw. einer ist immer noch nicht "vergessen".
freundliche Grüße
Ingo
erstmal danke für die antwort.
im endeffekt werden alle anfragen auf eine php file im root der domain weitergeleitet. ruft man praktisch nur die url auf, sollte die index.php angesprochen werden.
aber selbst wenn diese eine seite sogar real ist, wieso kennt google dann die anderen unterseiten. bei der ersten hät ichs mir noch vorstellen können, aber bei den anderen ist es seltsam?
grüße Chris
Hi,
Google kann auf keinen Fall den mod_rewrite erkennen.
Falsch.
Wenn beim Rewrite eine absolute Adresse angegeben wird, wird die Weiterleitung über den Client gemacht.
Gleiches gilt, wenn das R-flag benutzt wird.
In diesen Fällen bekommt der Client (und damit auch der Google-Robot) durchaus mit, daß eine Weiterleitung stattfindet.
cu,
Andreas