Gunnar Bittersmann: Zeichenkodierung

Beitrag lesen

Hello out there!

Mein Editor (Notepad++) bietet mir "nur" ANSI,

Damit meint er wohl ISO 8859-1; oder evtl. auch windows-1252.

UCS-2 Big Endian oder UCS-2 Little Endian

Damit meint er wohl UTF-16 (BE bzw. LE). [http://de.wikipedia.org/wiki/UTF-16, http://www.unicode.org/faq/basic_q.html#25]

Oder kann ich statt ASCII einfach ANSI wählen, da es unter den ersten Zeichen keinen Unterschied gibt?

So ist es. Die Basic-Latin-Zeichen U+0000 bis U+007F werden in ISO 8859-1, -2, -3, ... und UTF-8 gleich codiert, nämlich als Oktettwerte 00 bis 7F.

Erst danach wird's anders: Die Zeichen U+0080 bis U+00FF werden in ISO 8859-1 als Oktettwerte 80 bis FF codiert; nicht jedoch in ISO 8859-2, -3, ..., da sind repräsentieren einige Oktettwerte andere Zeichen jenseits von Latin-1. In UTF-8 werden die Zeichen U+0080 bis U+00FF als Sequenz zweier Oktettwerte codiert. [http://de.wikipedia.org/wiki/UTF-8]

Allgemein rätst du zu UTF-8 (ohne BOM), soweit klar. Aber wie ist es jetzt in Includes? Dort sollte ich nur ASCII Zeichen verwenden, sagst du (also wohl Entities verwenden),

Wenn du diese Includes sowohl in ISO-8859-1- als auch in UTF-8-codierte Dokumente einfügen möchtest, ja. Hast du hingegen sämtliche Dokumente UTF-8-codiert, kannst du auch die Includes so codieren und in ihnen 'ä' usw. verwenden. Es liegt an dir, zwischen mehr Flexibilität oder etwas besserer Lesbarkeit des Quelltextes der Includes zu wählen.

Dort sollte ich nur ASCII Zeichen verwenden, sagst du (also wohl Entities verwenden), aber soll ich dann trotzdem als UTF-8 speichern?

Egal, s.o.

See ya up the road,
Gunnar

--
„Wer Gründe anhört, kommt in Gefahr nachzugeben.“ (Goethe)