Alex: Win32 Module um Text zu extrahieren aus Dokumenten

Huhu,

Ich würde gerne Text aus Dokumenten wie PDF, MS Office/Open Office extrahieren.

Für linux hatte ich mal ein paar Module gefunden, bzw auch mit der Shell latex2txt genutzt. Aber das CPAN ist ziemlich chaotisch wenn man nach Win32 Funktionalität sucht.

Hat jemand Erfahrung damit und möchte die evtl mit mir teilen?

  1. Ich würde gerne Text aus Dokumenten wie PDF, MS Office/Open Office extrahieren.
    [...]
    Hat jemand Erfahrung damit und möchte die evtl mit mir teilen?

    Für Excel kann ich Spreadsheet::ParseExcel bzw. Spreadsheet::WriteExcel empfehlen. Für PDF-Manipulationen gibt's die Distribution PDF::API2, die arbeitet plattformübergreifend. Den Wrapper PDF::API2::Simple findest Du unter http://theoryx5.uwinnipeg.ca/ppms/ (ich empfehle, diese URL der Repositoryliste hinzuzufügen). Für OpenOffice bietet sich die Distribution OpenOffice::OODoc an.

    Zwei Hinweise zu CPAN:
    Schau nach den Bewertungen und lies sie.
    Sieh Dir die Ergebnisse der CPAN Testers an, dort kannst Du sehen, auf welchen Systemumgebungen die Modulinstallation gelaufen ist.

    Siechfred

    --
    Hinter den Kulissen passiert viel mehr, als man denkt, aber meistens nicht das, was man denkt.
    1. Das mit OpenOffice kommt mir bekannt vor, hab ich schonmal benutzt. Wenns auf Win läuft um so besser :)

      Danke :)

      1. Das mit OpenOffice kommt mir bekannt vor, hab ich schonmal benutzt. Wenns auf Win läuft um so besser :)

        Klar läuft's auf Win32, das OO-Format ist ja schließlich nichts proprietäres, sondern eigentlich „nur“ XML.

        Siechfred

        --
        Hinter den Kulissen passiert viel mehr, als man denkt, aber meistens nicht das, was man denkt.
    2. Wie komm ich denn mit PDF::API2::Simple an den Content eines PDFs ran?
      Ich will nur auslesen, nichts chreiben, aber das scheint nicht gerade die Lieblingsfunktion der APIs zu sein, die ich zum Thema finde...

      Einen Tipp vielleicht noch?

      1. mit CAM::PDF hab ichs hinbekommen :)

        thx, alex