Hallo
ein vorhandener Fachartikel im PDF Format soll auf einer Webseite dargestellt werden.
Die Seiten sind A3 quer und ich möchte sie nach HTML umsetzen, weil die Schrift viel zu klein ist.
Leider kann ich mit meinem Linux-Programm "Dokumentenbetrachter" aufeinanderfolgende Zeilen nicht markieren, weil das Layout zweispaltig ist und beide Spalten markiert werden.
Gibt es für Linux ein Programm, das einen PDF-Bereich markieren kann und daraus den Text entnehmen?
Ich bin ehedem eine ähnliche Aufgabe, allerdings mit Scans (also Bildern) als Quelle, mit OCR angegangen. Da du, soweit ich mich erinnere, auch mit einem Ubuntu(-Derivat) unterwegs bist, bietet sich tesseract-ocr mit Ergänzung durch eine grafische Oberfläche an. Ich habe damals vietOCR benutzt, wobei nur sehr wenige Korrekturen nötig waren. Das wird aber wohl eher das Verdienst von tesseract-OCR gewesen sein. 😀
Laut der Tabelle (siehe letzter Link) hat vietOCR aber keinen PDF-Import. Das hieße, den Umweg über Screenshots, je einen pro Textspalte, zu gehen. Da aber andere Oberflächen einen PDF-Import bieten, solltest du erst einmal mit denen herumprobieren.
Tschö, Auge
Eine Kerze stand [auf dem Abort] bereit, und der Almanach des vergangenen Jahres hing an einer Schnur. Die Herausgeber kannten ihre Leser und druckten den Almanach auf weiches, dünnes Papier.
Kleine freie Männer von Terry Pratchett