Onkel Hotte: Text aus Word-Dokumenten extrahieren

Beitrag lesen

Mahlzeit,

kennt jemand eine Möglichkeit, aus Word-Dokumenten (herkömmlichen .doc, kein .docx) den Text zu extrahieren? Ich brauche keine Formatierungen bzw. will sie auch gar nicht haben, lediglich den reinen Text, so, wie man ihn bekommt, wenn man aus einer Office-Anwendung über die Zwischenablage in einen Texteditor kopiert.

Die Software sollte quelloffen sein, kein Windows voraussetzen und auch sonst möglichst einfach strukturiert sein, damit nicht noch ein Dutzend Bibliotheken installiert werden müssen.

Ich habe bislang lediglich PHP-Skripte gefunden, die aber nicht praktikabel sind, da sie samt und sonders COM-Dienste voraussetzen.

Alternativ: Kennt jemand eine rudimentäre Beschreibung des .doc-Dateiformats?