Hallo Martin,
Echt?? Das ist mir neu. Dass UTF-8 empfohlen wird, keine Frage. Aber vorgeschrieben?
Das hab ich neulich bei MDN gelesen, unter <meta charset>.
Ist das ein alternative fact?
Ja, aber wie erklärst du dir dann, dass ab dieser Stelle plötzlich ein ganzes Rudel nicht darstellbarer UTF-8-Codes kommt
Gute Frage. Ein ü ist FC, also '11111100' - hui, 6 Bits, das ist eine UTF-8 Sequenz aus 6 Bytes und hooooch in den Unicode-Wolken. So hoch, dass wir vermutlich ohne die Gründung der UFP den Bedarf dafür nicht haben werden. Es sei denn, die Emoji-Inflation hält weiter an...
Ein dummer Editor bemerkt vielleicht nicht, dass hinter dem ü kein UTF-8 Fortsetzungszeichen kommt, sondern ein g (0x67).
"einfügen möchten" ist dann noch ein besonders gemeiner Text, weil ü und ö genau 6 Zeichen auseinander liegen. Dem armen Editor wird vom ü ein Bein gestellt, und wenn er sich wieder aufrappelt, trampelt er genau auf das ö. Was da genau passiert, kann man vermutlich nur durch genaueres Studium der Bytes in der Datei betrachten.
Das Müllrudel kann aber auch eine Folge von mehrfach hintereinander erfolgten Codierungs-Unfällen sein und im Verlauf mehrerer Load/Edit+Shred/Save Operationen gewuchert sein.
Rolf
sumpsi - posui - obstruxi