Tach!
Das heißt, die Byte-Darstellung dieser Zeichen enthält irgendwo einen der Bytewerte 0x00 .. 0x1F, 0xFF oder 0x7F (gehört AFAIR zu :cntrl: dazu).
Kann doch eigentlich gar nicht. Die Bytewerte der Bytesequenzen von Nicht-ASCII-Zeichen (i.e. ab U+0080) in UTF-8 sind binär 110xxxxx, 1110xxxx, 11110xxx oder 10xxxxx, also weder 00000000 bis 00011111 noch 11111111 noch 01111111.
Oder hab ich da einen Denkfehler?
Vielleicht ist auch die Erklärung von Martin nicht ausreichend. Ich habe aber auch auf die Schnelle keine Daten für eine stichhaltige finden können. Sprich: die genaue Definition was in :cntrl: enthalten ist. Lediglich eine andere Theorie: Der Bereich 0x80..0x9F ist je nach Zeichensatz nicht belegt (ISO-8859-1), enthält Steuerzeichen (ISO/IEC 6429) oder Zeichen (Windows 1252). Vielleicht kollidieren die mit einigen der "chinesischen Bytes".
dedlfix.