Kodierung von Dateien feststellen
Andreas Dölling
- php
Hallo,
ich möchte gerne alle Dateien mit Unicode-kodiertem Inhalt aus einem Verzeichnis und dessen Unterverzeichnissen heraussuchen.
Mir ist dazu bislang nichts Eleganteres eingefallen, als das Verzeichnis rekursiv zu durchlaufen, alle Dateien jeweils mit implode('', file($file)) einzulesen und den so erhaltenen String auf die fünf mir bekannten BOMs hin zu prüfen.
Mir scheint dieser Ansatz allerdings ein wenig brachial. Geht es eleganter - insbesondere ohne diese zig Dateizugriffe?
Für Anregungen dankbar:
Andreas
Hi Andreas,
ich möchte gerne alle Dateien mit Unicode-kodiertem Inhalt
Unicode ist keine Codierung. Jedenfalls nicht in dem Sinne, wie du es hier meinst. (@Ludger: Ich hatte deine Spitzfindigkeit verstanden.)
Also welche Zeichencodierung meinst du?
auf die fünf mir bekannten BOMs hin zu prüfen.
In UTF-8-codierten Dateien ist eher kein BOM zu finden.
Geht es eleganter - insbesondere ohne diese zig Dateizugriffe?
Wenn du noch keine Liste mit den Dateien und den verwandten Codierungen hast, musst du wohl in jede reinschauen.
Gruß,
Gunnar
Hi Gunnar,
Unicode ist keine Codierung. Jedenfalls nicht in dem Sinne, wie du es hier meinst. (@Ludger: Ich hatte deine Spitzfindigkeit verstanden.)
Also welche Zeichencodierung meinst du?
Wie beschrieben (ich möchte wissen, welche Dateien einen BOM haben).
Davon abgesehen: wie ist denn nun die richtige Bezeichnung für Unicode? Zeichensatz?
Geht es eleganter - insbesondere ohne diese zig Dateizugriffe?
Wenn du noch keine Liste mit den Dateien und den verwandten Codierungen hast, musst du wohl in jede reinschauen.
Ja, so mache ich es jetzt auch. Wider Erwarten geht das sogar recht schnell. Ist ja auch kein Prozess, der ständig läuft - insofern ist es wohl in Ordnung so.
Thanx und ciao,
Andreas
Hi Andreas,
Davon abgesehen: wie ist denn nun die richtige Bezeichnung für Unicode? Zeichensatz?
Ja. Unicode / UCS ist ein Zeichensatz.
Codierungen sind z.B. UTF-8, UTF-16, ISO 8859-1.
Wenn du noch keine Liste mit den Dateien und den verwandten Codierungen hast, musst du wohl in jede reinschauen.
Ja, so mache ich es jetzt auch. Wider Erwarten geht das sogar recht schnell. Ist ja auch kein Prozess, der ständig läuft - insofern ist es wohl in Ordnung so.
Du könntest ja auch solch eine Liste erstellen. Wie aufwendig das ist, die bei neuen / geänderten Dateien zu pflegen, musst du wissen.
Gruß,
Gunnar