Ingo Turski: Auswertung Logfile: Umlaute werden merkwürdig umgewandelt

Beitrag lesen

Hi,

  • Heißt das für den Absender der Suchanfrage bei Google, er hat in seinem Browser ganz bewußt UTF-8 als Zeichensatz eingestellt?

Nein. Google liefert seine Seiten standardmäßig als UTF-8 aus, wie Du leicht selbst feststellen kannst. Folglich sind auch alle Umlaute in den Referrern UTF-8-kodiert - mir sind jedenfalls noch keine anderen aufgefallen. Theoretisch könnte zwar auch eine andere Kodierung verwendet werden, entweder wenn der Browser kein UTF-8 unterstützt (welcher sollte das sein?) oder wenn dies über den ie-Parameter angegeben wird (welcher Browser bzw. welches Plugin macht dies?).

  • Kann ich die Zeichensatz-Einstellung des Browsers noch aus dem Logfile erkennen, gibt's da in der User-Agent-Angabe irgendwelche Hinweise, so dass man im Perl-Script eine korrekte Umkodierung vornehmen könnte?

Normalerweise nicht. Aber das brauchst Du auch gar nicht. Gehe bei den Referrern grundsätzlich von UTF-8 aus; sollten doch mal anders kodierte Zeichen vorhanden sein, ist das auch nicht schlimm. In meiner UTF-8-Dekodierungsroutine suche ich in den Referrern einfach nach "\x" bzw. "%" und wandle die folgenden Zeichen um. Mir ist jedenfalls noch kein Zeichensalat in meinen Auswertungen aufgefallen.

freundliche Grüße
Ingo