Tach!
UTF-8 wird eher selten für die interne Verarbeitung verwendet, eben weil man sonst immer nur anhand der Sequenz die Zeichengrenzen bestimmen kann. Stattdessen nimmt man für Strings pro Zeichen 16 Bit (oder auch mal 32 Bit für die vergleichsweise selten verwendeten Zeichen oberhalb der BMP) und kann dann ähnlich effizient wie beim 1-Zeichen-gleich-1-Byte-Prinzip arbeiten.
könntest du mir das bitte etwas erklären? das hört sich sehr interessant an, nur verstehe ich es noch nicht so ganz.
UTF-8 ist ein Format, das eher als Kompromiss zu vorhandenen Texten mit ASCII-Zeichenumfang und zur Optimierung des Speicherbedarfs bei ASCII-lastigen Texten zu sehen ist.
Ach, vielen Dank.Jetzt verstehe ich auch, warum Windows UTF-16 nutzt und nicht UTF-8. Alles klar, super, wieder mal was dazugelernt! Eine Frage noch: UTF-8 nutzt man dann genau, weil ...? Aus Platzgründen? Könnte man doch gleich UTF-16 nutzen!
Oder anders gefragt: macht es Sinn, Webseiten als UTF-16 auszuliefern? Oder spricht was dagegen?
Danke,
Dümmler