Dennis: Text aus Word-Dokumenten extrahieren

Beitrag lesen

Hi Onkel,

Dann bräuchte ich irgendwas, um auf Shell/bash-Ebene .doc in .odt umzuwandeln, denn die Word-Dokumente mit OpenOffice laden, also manuell eingreifen, wollte ich in Zukunft nicht mehr. Hintergrund ist, dass die Word-Teile regelmäßig per Mail kommen; der Text darin soll gleich in der Weiterverarbeitung erscheinen und nicht erst von Hand umkopiert werden müssen.

Ich bin gerade noch auf unoconv gestoßen, was wohl zwischen allen von OpenOffice unterstützten Formaten hin und her konvertieren kann. Zumindest für Debian und Ubuntu Derivate gibt es das auch über Aptitude zu installieren. Allerdings greift unoconv auf ein installiertes OpenOffice zurück, welches wahrscheinlich eine installierte Desktop-Umgebung voraussetzt und damit für Server dann schon wieder uninteressant wäre. Ob das allerdings wirklich notwendig ist, müsste man sich mal noch genauer ansehen, ich habs nur überflogen.

Wenn du mal ein ODT Dokument hast, dann wäre vermutlich odt2txt was für dich - ein passendes Pendant für DOC habe ich allerdings, ebenso wie du, nicht gefunden, zumindest keines, was nicht über COM auf ein installiertes Word zurückgreift.

Viele Grüße,
  ~ Dennis.