MudGuard: Codierungs-Problem mit DOM-Objekten

Beitrag lesen

Hi,

Stimmt, das ist wirklich seltsam. Wie bestimmt man den Zeichensatz, der eine Textdatei verwendet? Bei Unicode-Dateien sind ja am Anfang der Datei

ggf.

ein paar Bytes notiert, die die Codierung genauer bestimmen,

Der sogenannte BOM. Der kann, muß aber nicht vorhanden sein - wenn er da ist, kann man daraus erkennen, ob es UTF-8 oder UTF-16 (bigendian oder littleendian) ist.

aber wie funktioniert das bei den anderen Codes?

Da muß die Information aus einer anderen Quelle stammen.
Man kann ggf. rausfinden, welche Kodierung es nicht sein kann (z.B. wenn Zeichen > 127 vorhanden, ist es kein ASCII; oder wenn bestimmte Byte-Sequenzen vorhanden sind, die in UTF-8 nicht vorkommen können, kann es kein UTF-8 sein).

Aber ob es sich z.B. um ISO-8859-1 oder ISO-8859-2 handelt, ist am Code selbst nicht zu erkennen.

Wenn der Text z.B. nur Byte-Sequenzen enthält, die in UTF-8 erlaubt sind, muß es aber noch lange nicht UTF-8 sein - es könnte auch ISO-8859-1 oder sonstwas sein.

cu,
Andreas

--
Warum nennt sich Andreas hier MudGuard?
Schreinerei Waechter
O o ostern ...
Fachfragen unaufgefordert per E-Mail halte ich für unverschämt und werde entsprechende E-Mails nicht beantworten. Für Fachfragen ist das Forum da.