Win32 Module um Text zu extrahieren aus Dokumenten
Alex
- perl
Huhu,
Ich würde gerne Text aus Dokumenten wie PDF, MS Office/Open Office extrahieren.
Für linux hatte ich mal ein paar Module gefunden, bzw auch mit der Shell latex2txt genutzt. Aber das CPAN ist ziemlich chaotisch wenn man nach Win32 Funktionalität sucht.
Hat jemand Erfahrung damit und möchte die evtl mit mir teilen?
Ich würde gerne Text aus Dokumenten wie PDF, MS Office/Open Office extrahieren.
[...]
Hat jemand Erfahrung damit und möchte die evtl mit mir teilen?
Für Excel kann ich Spreadsheet::ParseExcel bzw. Spreadsheet::WriteExcel empfehlen. Für PDF-Manipulationen gibt's die Distribution PDF::API2, die arbeitet plattformübergreifend. Den Wrapper PDF::API2::Simple findest Du unter http://theoryx5.uwinnipeg.ca/ppms/ (ich empfehle, diese URL der Repositoryliste hinzuzufügen). Für OpenOffice bietet sich die Distribution OpenOffice::OODoc an.
Zwei Hinweise zu CPAN:
Schau nach den Bewertungen und lies sie.
Sieh Dir die Ergebnisse der CPAN Testers an, dort kannst Du sehen, auf welchen Systemumgebungen die Modulinstallation gelaufen ist.
Siechfred
Das mit OpenOffice kommt mir bekannt vor, hab ich schonmal benutzt. Wenns auf Win läuft um so besser :)
Danke :)
Das mit OpenOffice kommt mir bekannt vor, hab ich schonmal benutzt. Wenns auf Win läuft um so besser :)
Klar läuft's auf Win32, das OO-Format ist ja schließlich nichts proprietäres, sondern eigentlich „nur“ XML.
Siechfred
Wie komm ich denn mit PDF::API2::Simple an den Content eines PDFs ran?
Ich will nur auslesen, nichts chreiben, aber das scheint nicht gerade die Lieblingsfunktion der APIs zu sein, die ich zum Thema finde...
Einen Tipp vielleicht noch?
mit CAM::PDF hab ichs hinbekommen :)
thx, alex