Der Martin: Zeichencodierung bestimmen

Beitrag lesen

Hallo,

Ich möchte die Zeichencodierung einer hochgeladenen CSV- Datei bestimmen und versuche es mit mb_detect_encoding:

diese Funktion kann leider auch nur anhand einiger Indizien raten.

Getr„nkeindustrie
„ ä
” ö
? ü
á ß
™ Ö
Wie kann ich die Zeichencodierung herausfinden?

In diesem konkreten Fall hast du wohl Eingabedaten von irgendeinem DOS-basierten System in CP437.

Dort hat das ä den Code 0x84, der in Windows-1252 wiederum als „ interpretiert wird. ö (0x94 in CP437) passt auf ”, ü (0x81) hat gar keine Entsprechung, ß (0xE1 in CP437) entspricht á, und Ö (0x99 in CP437) entspricht dem ™-Zeichen.
Damit hast du diesen konkreten Fall gelöst. Eine allgemeine Lösung gibt's aber wohl nicht.

Ciao,
 Martin

--
Mit einem freundlichen Wort und einer Waffe erreicht man mehr, als mit einem freundlichen Wort allein.
  (Al Capone, amerikanische Gangsterlegende)