Tach!
Jetzt mal ganz dumm gefragt: UTF müsste doch eigentlich Bytesequenzen kennen, die kein _Zeichen_ repräsentieren.
Da UTF-x nur die CodePoints von Unicode repräsentiert und einige CodePoints nicht belegt sind, gibt es auch Bytesequenzen, die kein Zeichen repräsentieren.
Das kannte doch eigentlich ASCII schon.
Ich kenne in ASCII keine Lücke. 0x00..0x7F ist komplett belegt.
Es geht doch um den Unterschied zwischen dem _darstellbaren_ ("druckbaren") Zeichensatz und den Steuerzeichen.
Es geht eher darum, Daten zu trennen. Ob es dazu besser ist, auch vom Inhalt verwendete Zeichen einzuschieben, oder nicht vielleicht eine Datenstruktur geeigneter ist, kann man ohne den eigentlichen Anwendungsfall schlecht beurteilen.
dedlfix.