Steffen: PDF mit Markup - etwas off-topic?

Hallo,

es gibt ja die Möglichkeit, aus XML-Daten mit XSL-FO ein PDF-Dokument zu erzeugen. Meine Frage ist aber, ob es Möglichkeiten gibt, in PDF-Dokumenten Mark-up zu hinterlegen, so dass man die Daten aus dem PDF extrahieren kann. Mir ist Software bekannt, die Daten aus PDF-Dokumenten auslesen kann. Allerdings basieren diese auf optischer Analyse. Ich würde aber gerne Wissen, ob es mittlerweile auch Möglichkeiten gibt, Daten in PDF-Dokumente einzubinden, die dann entsprechend einfach ausgelesen werden können. Gibt es da eine Erweiterung für das PDF-Format?

Wäre sehr dankbar für Hinweise oder Links zum nachlesen. Steffen

  1. Welche Daten möchtest du einbinden, sichtbaren Text im Dokument oder Metadaten? Für letzteres kannst du zB PDF/A mit XMP & RDF verwenden.

    LG andaris

    1. Vielen Dank für die Info. Es geht eher um die Information, die im PDF angezeigt werden und ob man diese auch auszeichnen kann um sie dann maschinell auslesen zu können. Also eher nicht um Metadaten zum Dokument selbst (sondern den Inhalt)

      1. Das geht natürlich auch. Die konkrete Lösung zum Parsen von PDFs hängt von der eingesetzten Programmiersprache und installierten Bibliotheken/Tools ab.