Warum man nicht 'uft8' in MySQL verwenden sollte von Gunnar Bittersmann, 31.07.2012 16:20

SELF-Forum

Warum man nicht 'uft8' in MySQL verwenden sollte

Gunnar Bittersmann Homepage des Autors 31.07.2012 16:20

datenbank

– Informationen zu den Bewertungsregeln

@@hotti:

nuqneH

Die Bytefolge F0 9D in utf8 ist der REPLACEMENT CHARACTER

Nein.*

Die Bytefolge F0 9D¹ zeigt an, dass die nächsten 2 Bytes auch noch mit zu dem codierten Zeichen² gehören. Und wenn es keine 2 folgenden Bytes gibt (oder deren jeweils ersten zwei Bits nicht 10 sind), ist die Bytefolge F0 9D kein UTF-8.

Der REPLACEMENT CHARACTER (Codepoint U+FFFD) ist übrigens in UTF-8 die Bytefolge EF BF BD.

Qapla'

* Das wird wohl zur Standardantwort auf all deine Postings zum Thema Zeichencodierung.

¹ genauer gesagt: die ersten 5 Bits des ersten Bytes 11110 und die ersten 2 Bits 10 des zweiten Bytes [Wikipedia]

² welches einen Codepoint ≥ U+10000 hat

--
Wer möchte nicht lieber durch Glück dümmer als durch Schaden klüger werden? (Salvador Dalí)

Beitrag melden

– Informationen zu den Bewertungsregeln

SELFHTML Forum - Ergänzung zur Dokumentation Übersicht

Gunnar Bittersmann: Warum man nicht 'uft8' in MySQL verwenden sollte

Beitrag lesen

Warum man nicht 'uft8' in MySQL verwenden sollte

Warum man nicht 'uft8' in MySQL verwenden sollte