Christian Kruse: E-MAIL und UTF-8

Beitrag lesen

你好 Sven,

UTF-16 benutzt übrigens zwischen 16 und 32 Bit pro Zeichen. Die Code-Einheiten sind dabei 16 Bit gross.

UTF-8 kann ja (iirc) alle Unicode-Zeichen darstellen. UTF-16 auch. Welchen Vorteil hat dann letzteres?

UTF-16 ist optimiert auf die sog. „Basic multilingual plane”, das heisst im Standard-Fall kann alles in 16 Bit kodiert werden. Erst wenn es „aussergewöhnlich” wird, werden 32 Bit benötigt.

UTF-32 benutzt immer 32 Bit pro Zeichen, die Code-Einheiten sind auch immer 32 Bit gross.

und vor allem, welchen Vorteil hat UTF-32?

Die Einfachheit. Keine variable Länge der Code Units, alle sind 32 Bit lang. Man kann also z. B. sofort erkennen, wie lang die Zeichenkette ist. Beim schneiden von Zeichenketten (substring oder so) muss man nicht auf Zeichengrenzen aufpassen, etc, pp. Man kann diese Kodierung viel einfacher verarbeiten. Bei UTF-16 muss man da sehr aufpassen, bei UTF-8 noch viel mehr.

再见,
 克里斯蒂安

--
Interessante Kommunikation | Modifiziertes Code-Folding mit TextMate
Wenn du gehst, gehe. Wenn du sitzt, sitze. Und vor allem: schwanke nicht!
http://wwwtech.de/