TS: einige Fragen zur Zeichenkodierung

Beitrag lesen

Hallo und guten Morgen,

Bei der UTF-8 Codierung werden Zeichen aus dem ASCII Zeichensatz ja mir nur einem Byte codiert.

Ja, die sind durch nichts zu unterscheiden von ASCII oder von der unteren Hälfte von ISO-8859-x, was ja auch ASCII ist.

UTF8 wird doch immer die gleiche Codierung verwenden, sprich der Buchstabe wird immer die gleiche Zahlenkombination haben.

Demnach verstehe ich nicht wie die von die genannte Umkodierung von statten gehen soll.

Der Unterschied liegt im Rest der Zeichen. Alles was mit mehr als einem Byte kodiert wird,

zur Verdeutlichung: das passiert dann bei allen Codes, die breiter als 7 Bit sind. Die bekommen (mindestens) das zweite Byte dazu.

und damit unterschiedlich zu ISO-8859-x ist. Also alles was nicht ASCII ist. Darunter fallen zum Beispiel die Umlaute. Nur an diesen Zeichen kann man doppelte Kodierung, aber auch falsche Kodierung erkennen.

Grüße
TS

--
es wachse der Freifunk
http://freifunk-oberharz.de