Christian Kruse: Zeichenkodierung: ISO ... vs. Unicode

Beitrag lesen

你好 Tim,

  1. Was ist sinnvoller: Unicode oder z. B. ISO 8859?

Unicode ist keine Kodierung, Unicode wird in HTML-Dateien sowieso
verwendet ;-)

Hier im SELF-Forum wird z.B. die Unicode-Kodierung UTF-8 verwendet,
hauptsächlich weil Cheffe chinesische Begrüßungen verwenden will.

Nein, das könnte ich auch, wenn das Forum als Latin1 ausgeliefert
würde -- meine Charset-Routinen können alle Zeichen, die nicht in einer
Kodierung enthalten sind, umwandeln in benannte bzw. wenn kein benanntes
existiert in nummerische Entities umwandeln. Der Grund, warum hier auf
UTF-8 umgestellt wurde sind diverse Browserbugs. Bestes Beispiel bildet
hier Mozilla, der Windows-1252 sendet, wenn ein als ISO-8859-1 kodiertes
Dokument ein Formular enthält, in dem ein €-Zeichen eingegeben wurde.
Und bei anderen Zeichen, die nicht in der Kodierung enthalten sind, sendet
er nummerische Entities ohne sie von echten Text abzusetzen. Bescheuertes
Verhalten und auch schon mehrfach im Bugtracker angemäkelt aber nie
verbessert. Dazu kommt, dass er das “accept-charset”-Attribut schlichtweg
ignoriert.

Wenn Du also Zeichen verwenden willst, die nicht in einem der ISO 8859-X
Zeichensätze enthalten sind oder Zeichen aus verschiedenen Zeichensätzen
mischen willst, empfiehlt sich Unicode in der Kodierung UTF-8.

Warum UTF-8 sich empfiehlt, habe ich oben ja angemerkt. Die Zeichen mischen
könnte man auch problemlos mit nummerischen oder benannten Entities.

再见,
克里斯蒂安

--
Wenn gewöhnliche Menschen Wissen erlangen, sind sie weise. Wenn Weise Einsicht erlangen, sind sie gewöhlnliche Menschen.
http://wwwtech.de/