dedlfix: Codierung einer Textdatei ermitteln

Beitrag lesen

Tach!

allgemeiner Tenor war ja, UTF-8 verwenden.
Nun habe ich gelesen, dass für die Konvertierung zunächst die Codierung der alten Ursprungsdatei angegeben werden muss.
Die mir vorliegenden Dateien wurden offensichtlich mit unterschiedlichen Werkzeugen (Editoren) erzeugt. Wie finde ich heraus, wie eine Datei codiert ist?

Wenn man das nicht weiß, kann man nur anhand von Vermutungen an die Sache herangehen. Es ist quasi wie eine Verschlüsselung, aber eine ganz leichte. Man kann davon ausgehen, dass hierzulande entweder ISO-8859-1 (auch Latin1 genannt und manchmal ANSI), Windows-1252 oder UTF-8 verwendet wurde. Der Unterschied zwischen ISO-8859-1 und Windows-1252 zeigt sich nur bei wenigen Zeichen. Eine Auflistung kennt unter anderem die Wikipedia: ISO-8859-1.

Du kannst wie folgt vorgehen. Öffne die Datei ohne weitere Verrenkungen. Kannst du alles lesen, besonders die Umlaute (und eventuelle Windows-1252-spezifischen Zeichen), ist alles bestens. Sind sie unlesbar, versuch dein Glück mit einer der beiden Kodierungen. Wenn du statt eines Umlautes zwei Zeichen siehst, hast du UTF-8 vorliegen und liest die Datei aber gemäß ISO-8859-1. Meist jedenfalls. Doppelt von ISO-8859-1 nach UTF-8 kodiert sieht genauso aus, wenn man gemäß UTF-8 liest. Im Zweifelsfall hilft da nur ein Blick mit dem Hexeditor, welche Bytes da nun konkret stehen.

Probier also einfach die Datei zu öffnen und gib beim Speichern UTF-8 an, oder je nach Editor muss man das vor dem Speichern explizit umkodieren.

Man möge mir verzeihen, wenn codiert der falsch Begriff ist!

Das ist richtig formuliert.

dedlfix.