Sven (κ): E-MAIL und UTF-8

Beitrag lesen

Moin Christian,

UTF-8 benutzt zwischen 8 und 42 Bit (1-6 Octetts) pro Zeichen. Die Code-Einheiten sind allerdings jeweils 8 Bit gross, das stimmt.

Jep, das ist der Grund, weswegen ASCII-Zeichen im #selfchat immer wunderbar funktionieren und aus UTF-8 "ö"s plötzlich zwei Sonderzeichen werden ;-)

UTF-16 benutzt übrigens zwischen 16 und 32 Bit pro Zeichen. Die Code-Einheiten sind dabei 16 Bit gross.

UTF-8 kann ja (iirc) alle Unicode-Zeichen darstellen. UTF-16 auch. Welchen Vorteil hat dann letzteres?

UTF-32 benutzt immer 32 Bit pro Zeichen, die Code-Einheiten sind auch immer 32 Bit gross.

und vor allem, welchen Vorteil hat UTF-32?

Grüße,

Sven

PS: Ein Vorteil fällt mir ein: Wenn man chinesisch schreibt (wie du), kann man die Position einzelner Zeichen z.B. bei UTF-32 wesentlich schneller herausfinden, bei UTF-8 muss man sie ja erst fast "berechnen" (bzw. den ganzen Text durchgehen)

--
ich hatte mal meterlange signs, die sind alle weg