Paul: Erkennen und Lesen von Unicode- und nicht Unicode-Dateien

Beitrag lesen

Hallo,

So, nach fruchtlosem Herumgesuche und Lesen von FAQ's habe ich nun
einen Grad an Verwirrung erreicht, der sich nicht mehr toppen lässt.

Folgendes Problem:

Ich lese aus einem Verzeichnis rekursiv Text- und XML-Dateien, formatiere sie, häng sie aneinander und schreibe sie wiederum in eine
HTML-Datei.

Manche sind ascii-encoded, manche utf8.
Vorkommende Stellen wie z.B. (in utf8-files):

• Image display

werden im letztendlichen Output zu:

• Image display

Meine Frage(n):

* Wie kann ich erkennen, um was für ein Encoding es sich bei der
  Textdatei handelt?

* Muss ich Perl beim Einlesen sagen, dass da jetzt utf8 kommt, oder
  den eingelesenen String dann konvertieren?

* Muss ich beim Schreiben was beachten? In welchem Encoding speichere
  ich die Dateien am Besten?

* Ich benutze Perl 5.8.0, hat das Auswirkungen?

Wie man unschwer erkennen kann, fehlt mir wohl hier und da das
grundlegende Verständnis in Sachen Character-Encoding. Wäre nett,
wenn mir jemand einpaar grundlegende Tips gibt, wo ich anfangen kann,
bzw. wie man sowas am besten angeht.

Besten Dank,
Paul