Christian Seiler: Polnischer Eintrag im Gästebuch

Beitrag lesen

Hallo Sven,

was beispielsweise die Auflistung mehrerer Codierungsschemata im accept-encoding-Attribut verbietet, weil man nicht sicher feststellen kann, welche der Alternativen der Browser benutzt hat.

UTF-8 vs. ISO-8859-1 kann man durchaus unterscheiden (das CForum hat das lange Zeit verwendet, bevor hier komplett auf UTF-8 umgestellt wurde): Man erstellt ein Hidden-Feld, das so aussieht: <input type="hidden" name="irgendwas" value="&#255;"> In ISO-8859-1 wird das Zeichen dann als 1 Byte mit dem Wert 0xFF kodiert (ISO-8859-* sind 1-Byte-Zeichenkodierungen), in UTF-8 wird das Zeichen dann als 2 Byte mit den Werten 0xC3 0xBF kodiert - so kann man UTF-8 von ISO-8859-1 unterscheiden (man kann statt &#255; natürlich auch jedes andere beliebige in ISO-8859-1 gültige Zeichen nutzen, das in UTF-8 mit 2 Byte kodiert werden würde). Analog ginge ISO-8859-2 von UTF-8, wenn man statt &#255; ein Zeichen wählen würde, das in ISO-8859-2 kodierbar wäre (z.B. &#729 - in ISO-8859-2 wäre das 0xFF, in UTF-8 wäre das 0xCB 0x99). Hmm, mir fällt gerade auf: Man könnte das fortsetzen, in dem man für jede ISO-Kodierung ein Formularfeld erstellt und dann prüft, bei welchem Formularfeld 0xFF drin steht, dann würde man sogar ISO-8859-1 von ISO-8859-2 unterscheiden können. Wäre natürlich ein gehöriger Aufwand. ;-)

Viele Grüße,
Christian

--
"I have always wished for my computer to be as easy to use as my telephone; my wish has come true because I can no longer figure out how to use my telephone." - Bjarne Stroustrup