Gunnar Bittersmann: Besser "Ö" oder "Ö" und "charset=UTF-8"?

Beitrag lesen

Hello out there!

Damit HTML-Dateien problemlos zwischen verschiedenen Rechnerwelten ausgetauscht werden können, setzt die Sprache HTML auf einem international genormten Zeichensatz auf: dem Zeichensatz ISO 8859-1 (auch ISO Latin-1 genannt).

Nein, das ist falsch.

„HTML [nutzt] das so genannte Universal Character Set (UCS), einen viel umfangreicheren Zeichensatz, definiert in [ISO10646]. Dieser Standard definiert einen Vorrat von Tausenden von den Völkern der ganzen Welt verwendeten Zeichen.

Der in [ISO10646] definierte Zeichensatz ist Zeichen für Zeichen äquivalent zu Unicode ([UNICODE]).“ [HTML401 §5.1]

IIRC interpretiert ein Browser (Tag-Soup-Parser), wenn ihm keinerlei Information über die verwendete Zeichen_codierung_ vorliegt (weder im HTTP-Header noch HTTP-EQUIV-Angabe im Dokument), den Eingabestrom gemäß ISO 8859-1.

Zwischen Zeichen_satz_ und Zeichen_codierung_ sollte streng unterschieden werden, sonst gibt’s Verwirrung. [</archiv/2007/5/t153210/#m997116>, HTML401 §5.2]

Zur Frage von BLÖDLeser:

“It is almost always preferable to use an encoding that allows you to represent the characters in their normal form, rather than using character entities or NCRs.” [QA-ESCAPES]

s.a. </archiv/2007/3/t148760/#m965601> ff.

See ya up the road,
Gunnar

--
„Wer Gründe anhört, kommt in Gefahr nachzugeben.“ (Goethe)