Sven Rautenberg: E-MAIL und UTF-8

Beitrag lesen

Moin!

Ich weiß nicht, ob ich das jetzt richtig verstanden habe - aber heißt das dann, dass ein einfacher Text der nur aus ACII Zeichen besteht in UTF-32 mehr Speicherplatz benötigt (weil für jedes Zeichen 32 Bit benötigt) als in UTF-8 (wo für normale ASCII-Zeichen sicherlich nur 8 Bit oder so benötigt werden)?

Genau das heißt das.

Alle ASCII-Zeichen (also die 7-Bit-Version) sind im Unicode kompatibel platziert, haben also den identischen Zahlencode, und dementsprechend passen sie  in genau eine Codeeinheit von UTF-8 - nehmen also genausoviel Platz ein.

In UTF-32 hat jedes Zeichen 4 Byte - also drei mehr, als ASCII. Texte benötigen somit dreimal mehr Platz, von dem der meiste aus Nullbytes besteht.

Bei UTF-16 muss man da sehr aufpassen, bei UTF-8 noch viel mehr.

Da sieht man mal wieder, was du mit der Programmierung dieses Forum geleistet hast, wovon man als normaler User gar nichts weiß ;-)

In erster Annäherung ist UTF-8 eigentlich sehr simpel zu handhaben - nämlich genauso, wie jede andere Codierung auch. Die Postings vom Browser kommen schon direkt damit codiert an, werden simpel gespeichert, wieder ausgegeben, und der Browser zeigt das richtige Zeichen an - fertig.

Spannend wird's dann, wenn man Stringfunktionen auf den Text anwendet, insbesondere diejenigen, die eventuell aus Einfachheitsgründen einfach nur die Anzahl der Bytes zählen bzw. an Bytegrenzen den String zerschnippeln. Die funktionieren so simpel eben nicht mehr. Aber auch dafür gibts Bibliotheken, die das für einen erledigen können. :)

ASP ist übrigend voll unicode-fähig, während PHP damit immer noch ein paar grundsätzliche Probleme hat. Scheint also doch nicht so simpel zu sein.

- Sven Rautenberg

--
My sssignature, my preciousssss!