Hello out there!
Damit HTML-Dateien problemlos zwischen verschiedenen Rechnerwelten ausgetauscht werden können, setzt die Sprache HTML auf einem international genormten Zeichensatz auf: dem Zeichensatz ISO 8859-1 (auch ISO Latin-1 genannt).
Nein, das ist falsch.
„HTML [nutzt] das so genannte Universal Character Set (UCS), einen viel umfangreicheren Zeichensatz, definiert in [ISO10646]. Dieser Standard definiert einen Vorrat von Tausenden von den Völkern der ganzen Welt verwendeten Zeichen.
Der in [ISO10646] definierte Zeichensatz ist Zeichen für Zeichen äquivalent zu Unicode ([UNICODE]).“ [HTML401 §5.1]
IIRC interpretiert ein Browser (Tag-Soup-Parser), wenn ihm keinerlei Information über die verwendete Zeichen_codierung_ vorliegt (weder im HTTP-Header noch HTTP-EQUIV-Angabe im Dokument), den Eingabestrom gemäß ISO 8859-1.
Zwischen Zeichen_satz_ und Zeichen_codierung_ sollte streng unterschieden werden, sonst gibt’s Verwirrung. [</archiv/2007/5/t153210/#m997116>, HTML401 §5.2]
Zur Frage von BLÖDLeser:
“It is almost always preferable to use an encoding that allows you to represent the characters in their normal form, rather than using character entities or NCRs.” [QA-ESCAPES]
s.a. </archiv/2007/3/t148760/#m965601> ff.
See ya up the road,
Gunnar
„Wer Gründe anhört, kommt in Gefahr nachzugeben.“ (Goethe)