Hello,
Mir ist auch noch nicht klar, welche Anwendungsfälle es für die Aussage, wieviel Bytes das "längste" im Text enthaltene UTF-8-Zeichen verwendet, gibt. Könntest du mir einen oder mehrere nennen?
Lies Dir http://de.wikipedia.org/wiki/UTF-8 aufmerksam durch, und schau vor allem, ob Du im Abschnitt "Beispiele" den Violinschlüssel angezeigt bekommst.
Da steht, wie aus Unicode UTF-8 gemacht wird.
Das Violinschlüsselzeichen ist ein Ersatzzeichen, weil mein Browser keine Glyphe für das Zeichen finden konnte. Er zeigt aber immerhin ein 01D11E im Kästchen an, so wie er das mit allen glyphenlosen Zeichen macht.
Für den Text in diesem Wikipedia-Artikel wird also eine 4 ermittelt. Ich weiß aber immer noch nicht, was ich nun mit dieser 4 anstellen kann.
Du als Besucher dieser Webseite kannst damit gar nichts anfangen, es sei denn, Du überschreibst den von Wikipedia vorgeschlagenen Font mit einem, der eine Darstellung für den Zeichencode kennt.
Dieter geht es aber um die Klassifizierung vorhandener Sourcen. Diese Klassifizierung wird i.d.R. nicht vom Browser eines Clients durchgeführt, sondern vom Planer/Administrator/Programmierer. Und für den ist es sehr hilfreich, wenn man er für die Planung der späteren Anzeige bereits weiß, ob das Dokument Probleme bereiten kann, oder aber z.B. mit einer UTF-8-"1" klassifiziert werden konnte, also mit normalen ASCII-fähigen Fonts angezeigt werden kann.
Irgendwie verstehe ich Sven und Dich nicht, wo Ihr das Problem damit habt, einer Funktion eine Zusatzinformation zu entlocken, die sie eigentlich auch zur Verfügung stellen kann, anstatt diese Information versickern zu lassen. Zumal die Funktion mit
false entspricht[1] 0 für: ist garantiert kein valides UTF-8 # [1] bei passendem Operator
1 für: ist reines ASCII (127) und somit UTF-8
2 für: ist UTF-8 2 Bytes (können die meisten Fonts heute)
3 für: ... können nur die erweiterten Fonts
4 für: ... enthält garantiert Spezialzeichen
auch weitgehend Kompatibel mit einer reinen JA/NEIN Aussage ist.
Diese Einteilung gilt ziemlich genau aus der Sicht des ASCII-Glyphenraumes
In wieweit man das auch aus der Sicht Chinesischer Fonts usw. sagen kann, weiß ich nicht. Ich bezweifele das sogar, dass es ginge, da das Divergenzspektrum seinen Wurzelpunkt in der Menge der "ASCII-Glyphen" hat. Mit denen werden die Chinesen dann eher zwangsweise konfrontiert, oder funktioniert HTML in China anders?
Harzliche Grüße vom Berg
http://www.annerschbarrich.de
Tom
Fortschritt entsteht nur durch die Auseinandersetzung der Kreativen
Nur selber lernen macht schlau
