Huhu,
Ich würde gerne Text aus Dokumenten wie PDF, MS Office/Open Office extrahieren.
Für linux hatte ich mal ein paar Module gefunden, bzw auch mit der Shell latex2txt genutzt. Aber das CPAN ist ziemlich chaotisch wenn man nach Win32 Funktionalität sucht.
Hat jemand Erfahrung damit und möchte die evtl mit mir teilen?