Onkel Hotte: Text aus Word-Dokumenten extrahieren

Beitrag lesen

»» Alternativ: Kennt jemand eine rudimentäre Beschreibung des .doc-Dateiformats?

Die Spezifikationen für die alten Microsoft Dateiformate, hat Microsoft letztes Jahr veröffentlicht.

Danke, das hilft mir weiter!

Mir war schon aufgefallen, dass der Text nahezu roh in einem großen Stück in der Datei steht, nur leider mit Binärdaten davor und immer wieder unterbrochen durch unterschiedliche Kodierungen (konkret mal 8 Bit, mal 16 Bit pro Zeichen) und (vermutlich) haufenweise Füllbytes.
„Irgendwie“ den Text zu extrahieren sollte damit zwar selbst ohne Dokumentation kein Aufwand sein, ich wollte es aber gerne ordentlich haben, ohne Überraschungen.

Spontan würde ich da einfach ein ODT-Dokument draus machen und mir aus diesem die gewünschten Informationen holen, das sollte nicht allzu kompliziert sein.

Dann bräuchte ich irgendwas, um auf Shell/bash-Ebene .doc in .odt umzuwandeln, denn die Word-Dokumente mit OpenOffice laden, also manuell eingreifen, wollte ich in Zukunft nicht mehr. Hintergrund ist, dass die Word-Teile regelmäßig per Mail kommen; der Text darin soll gleich in der Weiterverarbeitung erscheinen und nicht erst von Hand umkopiert werden müssen.

Aber mit der Anleitung kann ich mir ja jetzt was basteln.