Gibt es eine utf-8 String-Klasse? von Tom, 02.03.2006 23:09

Gibt es eine utf-8 String-Klasse?

Tom Homepage des Autors 02.03.2006 23:09

Hello,

Mir ist auch noch nicht klar, welche Anwendungsfälle es für die Aussage, wieviel Bytes das "längste" im Text enthaltene UTF-8-Zeichen verwendet, gibt. Könntest du mir einen oder mehrere nennen?

Lies Dir http://de.wikipedia.org/wiki/UTF-8 aufmerksam durch, und schau vor allem, ob Du im Abschnitt "Beispiele" den Violinschlüssel angezeigt bekommst.

Da steht, wie aus Unicode UTF-8 gemacht wird.
Das Violinschlüsselzeichen ist ein Ersatzzeichen, weil mein Browser keine Glyphe für das Zeichen finden konnte. Er zeigt aber immerhin ein 01D11E im Kästchen an, so wie er das mit allen glyphenlosen Zeichen macht.
Für den Text in diesem Wikipedia-Artikel wird also eine 4 ermittelt. Ich weiß aber immer noch nicht, was ich nun mit dieser 4 anstellen kann.

Du als Besucher dieser Webseite kannst damit gar nichts anfangen, es sei denn, Du überschreibst den von Wikipedia vorgeschlagenen Font mit einem, der eine Darstellung für den Zeichencode kennt.

Dieter geht es aber um die Klassifizierung vorhandener Sourcen. Diese Klassifizierung wird i.d.R. nicht vom Browser eines Clients durchgeführt, sondern vom Planer/Administrator/Programmierer. Und für den ist es sehr hilfreich, wenn man er für die Planung der späteren Anzeige bereits weiß, ob das Dokument Probleme bereiten kann, oder aber z.B. mit einer UTF-8-"1" klassifiziert werden konnte, also mit normalen ASCII-fähigen Fonts angezeigt werden kann.

Irgendwie verstehe ich Sven und Dich nicht, wo Ihr das Problem damit habt, einer Funktion eine Zusatzinformation zu entlocken, die sie eigentlich auch zur Verfügung stellen kann, anstatt diese Information versickern zu lassen. Zumal die Funktion mit

false  entspricht[1]  0  für:  ist garantiert kein valides UTF-8      # [1] bei passendem Operator
                      1  für:  ist reines ASCII (127) und somit UTF-8
                      2  für:  ist UTF-8 2 Bytes  (können die meisten Fonts heute)
                      3  für:  ...                können nur die erweiterten Fonts
                      4  für:  ...                enthält garantiert Spezialzeichen

auch weitgehend Kompatibel mit einer reinen JA/NEIN Aussage ist.

Diese Einteilung gilt ziemlich genau aus der Sicht des ASCII-Glyphenraumes

In wieweit man das auch aus der Sicht Chinesischer Fonts usw. sagen kann, weiß ich nicht. Ich bezweifele das sogar, dass es ginge, da das Divergenzspektrum seinen Wurzelpunkt in der Menge der "ASCII-Glyphen" hat. Mit denen werden die Chinesen dann eher zwangsweise konfrontiert, oder funktioniert HTML in China anders?

Harzliche Grüße vom Berg
http://www.annerschbarrich.de

Tom

--
Fortschritt entsteht nur durch die Auseinandersetzung der Kreativen
Nur selber lernen macht schlau

Beitrag melden

– Informationen zu den Bewertungsregeln

SELFHTML Forum - Ergänzung zur Dokumentation Übersicht

Tom: Gibt es eine utf-8 String-Klasse?

Beitrag lesen

Gibt es eine utf-8 String-Klasse?

utf-8 detection

Gibt es eine utf-8 String-Klasse?

NORMIERUNG: Sackgasse oder Lösungsansatz?

Wollte nicht kneifen, aber 1&1 hat "Späße" gemacht

utf-8 Byteanzahl und Wahl des Zeichensatzes

Übersetzung Code -> Glyphe

utf-8 detection, danke und Zusatzfrage