Gunnar Bittersmann: Warum man nicht 'uft8' in MySQL verwenden sollte

Beitrag lesen

@@hotti:

nuqneH

Die Bytefolge F0 9D in utf8 ist der REPLACEMENT CHARACTER

Nein.*

Die Bytefolge F0 9D¹ zeigt an, dass die nächsten 2 Bytes auch noch mit zu dem codierten Zeichen² gehören. Und wenn es keine 2 folgenden Bytes gibt (oder deren jeweils ersten zwei Bits nicht 10 sind), ist die Bytefolge F0 9D kein UTF-8.

Der REPLACEMENT CHARACTER (Codepoint U+FFFD) ist übrigens in UTF-8 die Bytefolge EF BF BD.

Qapla'

* Das wird wohl zur Standardantwort auf all deine Postings zum Thema Zeichencodierung.

¹ genauer gesagt: die ersten 5 Bits des ersten Bytes 11110 und die ersten 2 Bits 10 des zweiten Bytes [Wikipedia]

² welches einen Codepoint ≥ U+10000 hat

--
Wer möchte nicht lieber durch Glück dümmer als durch Schaden klüger werden? (Salvador Dalí)