LanX: PS oder PDF zu HTML konvertieren

Beitrag lesen

Hi

Wenn der Text seine textliche Form zugunsten einer vektorbasierten Zeichenbeschreibung aufgegeben hat, hast du mit direkter Konvertierung verloren.

PS udn PDF sind eng verwandt. Wenn der Input textbasiert war dann wird auf der
untersten Interpretationsebene auch Text "chronologisch" ausgespuckt.
Sonst würde es ja auch keine PS-Fonts geben.

Was ein Wort und was ein Leerzeichen ist muß man allerdings dann abschätzen!

Ich hab in den ghostscript-mans einen Hinweiß auf pstotext gefunden, kapier
aber nicht wie man's zum laufen kriegt.

Ich würde mal sagen: Mit Ghostscript einen recht hochaufgelösten "Screenshot" erstellen und mit OCR-Software Texterkennung betreiben.

Never!!! :)

Cheers
  Rolf