Moin!
Für sinnvoll halte ich daher auch nach unserer Diskussion immer noch die Unterscheidung
kein UTF-8
ASCII (127) und damit UTF-8 1Byte
UTF-8 mit Folgebyte(s)
Und ich halte die Unterscheidung nicht für sinnvoll.
Wenn ich auf UTF-8 teste, dann benötige ich vollkommen unabhängig davon, wie lang die einzelnen Zeichen in Byte sind, so oder so eine vollständige Behandlungsmöglichkeit für UTF-8.
Das heißt: Entweder meine Bytefolge paßt in das Muster "UTF-8" hinein - oder nicht.
Wenn zufällig in der Bytefolge nur Bytes kleiner 128 auftauchen - kein Unterschied. Wenn ich in der Lage sein muß, UTF-8 verarbeiten zu können, bringt mir dieser Sonderfall absolut nichts, weil er nichts erleichtert, denn den Code für Multibyte-Zeichenbehandlung (wenn denn erforderlich) muß ich auch dann haben, wenn nur Einzelbytes vorkommen - ansonsten wäre die Verarbeitung nicht UTF-8-fähig.
Umgekehrt: Wenn ich nur in der Lage sein muß, ASCII zu verarbeiten (wohlgemerkt nach der strengen Auslegung, also nur 7 Bit!), wird sicher vieles leichter, aber dann fehlen für normale westeuropäische Texte schlicht die Umlaute und sonstigen diakritischen Zeichen, die im Bereich >128 stecken. Dann muß ich aber auch nichts von UTF-8 wissen, sondern checke einfach nur jedes Byte, ob es kleiner 128 ist, und fertig.
- Sven Rautenberg
My sssignature, my preciousssss!