Andreas Dölling: Kodierung von Dateien feststellen

Hallo,

ich möchte gerne alle Dateien mit Unicode-kodiertem Inhalt aus einem Verzeichnis und dessen Unterverzeichnissen heraussuchen.

Mir ist dazu bislang nichts Eleganteres eingefallen, als das Verzeichnis rekursiv zu durchlaufen, alle Dateien jeweils mit implode('', file($file)) einzulesen und den so erhaltenen String auf die fünf mir bekannten BOMs hin zu prüfen.
Mir scheint dieser Ansatz allerdings ein wenig brachial. Geht es eleganter - insbesondere ohne diese zig Dateizugriffe?

Für Anregungen dankbar:
Andreas

  1. Hi Andreas,

    ich möchte gerne alle Dateien mit Unicode-kodiertem Inhalt

    Unicode ist keine Codierung. Jedenfalls nicht in dem Sinne, wie du es hier meinst. (@Ludger: Ich hatte deine Spitzfindigkeit verstanden.)

    Also welche Zeichencodierung meinst du?

    auf die fünf mir bekannten BOMs hin zu prüfen.

    In UTF-8-codierten Dateien ist eher kein BOM zu finden.

    Geht es eleganter - insbesondere ohne diese zig Dateizugriffe?

    Wenn du noch keine Liste mit den Dateien und den verwandten Codierungen hast, musst du wohl in jede reinschauen.

    Gruß,
    Gunnar

    --
    “I got my finger on the trigger / But I don’t know who to trust” (Bruce Springsteen, Devils and Dust)
    1. Hi Gunnar,

      Unicode ist keine Codierung. Jedenfalls nicht in dem Sinne, wie du es hier meinst. (@Ludger: Ich hatte deine Spitzfindigkeit verstanden.)

      Also welche Zeichencodierung meinst du?

      Wie beschrieben (ich möchte wissen, welche Dateien einen BOM haben).

      Davon abgesehen: wie ist denn nun die richtige Bezeichnung für Unicode? Zeichensatz?

      Geht es eleganter - insbesondere ohne diese zig Dateizugriffe?

      Wenn du noch keine Liste mit den Dateien und den verwandten Codierungen hast, musst du wohl in jede reinschauen.

      Ja, so mache ich es jetzt auch. Wider Erwarten geht das sogar recht schnell. Ist ja auch kein Prozess, der ständig läuft - insofern ist es wohl in Ordnung so.

      Thanx und ciao,
      Andreas

      1. Hi Andreas,

        Davon abgesehen: wie ist denn nun die richtige Bezeichnung für Unicode? Zeichensatz?

        Ja. Unicode / UCS ist ein Zeichensatz.

        Codierungen sind z.B. UTF-8, UTF-16, ISO 8859-1.

        Wenn du noch keine Liste mit den Dateien und den verwandten Codierungen hast, musst du wohl in jede reinschauen.

        Ja, so mache ich es jetzt auch. Wider Erwarten geht das sogar recht schnell. Ist ja auch kein Prozess, der ständig läuft - insofern ist es wohl in Ordnung so.

        Du könntest ja auch solch eine Liste erstellen. Wie aufwendig das ist, die bei neuen / geänderten Dateien zu pflegen, musst du wissen.

        Gruß,
        Gunnar

        --
        “I got my finger on the trigger / But I don’t know who to trust” (Bruce Springsteen, Devils and Dust)