dedlfix: utf8 - unicode

Beitrag lesen

Hi!

danke, Beat. Das war sehr aufschlussreich. Endlich mal eine gute Erklärung!

Im Gegenteil. Außer dass das Unicode Consortium sich um Unicode kümmert ist eigentlich nichts so richtig richtig, und auch das war nur die halbe Wahrheit, denn das Unicode Consortium arbeitet zusammen mit der IEC an diesem Standard.[1]

Schön wäre es gewesen, wenn du selbst erst einmal versucht hättest, dir diese Frage mit den allgemein bekannten Quellen (Online-Lexikon, Suchmaschine) zu beantworten. Wenn du das doch getan hast, so sag bitte konkret, was du nicht verstanden hast.

Um es kurz zu machen: Unicode ist ein Zeichensatz - eine Ansammlung von Zeichen - und damit ein eher theoretisches Gebilde. UTF-8 ist eine Zeichenkodierung - eine Abbildung der Codepoints von Unicode auf konkrete Bytes und Bytefolgen.

Wenn man sagt, ein System unterstütze Unicode, so muss man sich das eigentlich genauer ansehen. Einige, wie beispielsweise MySQL, unterstützen nur die ersten 65536 Zeichen. Bei der internen Verarbeitung ist es wichtig, dass das System mehr als nur 256 Zeichen voneinander unterscheiden kann. Im Idealfall sind das alle 1.1 Millionen Unicode-Zeichen manchmal aber eben nur 65536. Und damit diese Daten auch von und zu andere Systemen übertragen werden können, muss es Zeichenkodierungen wie UTF-8 lesen und schreiben können. Weiterhin ist von Bedeutung, dass nicht nur die Menge an Zeichen verarbeitet werden kann, sondern soweit notwendig auch diverse Eigenheiten der Zeichen und von Sprachen berücksichtigt werden, als da unter anderem wären: Schreibrichtung, Sortierreihenfolge und Kombinationen von Zeichen (´ + a = á).

Lo!