Suche Programm, um Text aus mehrspaltigem PDF zu übernehmen von Auge, 23.05.2018 16:14

Suche Programm, um Text aus mehrspaltigem PDF zu übernehmen

Linuchs 23.05.2018 13:52

html
pdf

Moin,

ein vorhandener Fachartikel im PDF Format soll auf einer Webseite dargestellt werden.

Die Seiten sind A3 quer und ich möchte sie nach HTML umsetzen, weil die Schrift viel zu klein ist.

Leider kann ich mit meinem Linux-Programm "Dokumentenbetrachter" aufeinanderfolgende Zeilen nicht markieren, weil das Layout zweispaltig ist und beide Spalten markiert werden.

Gibt es für Linux ein Programm, das einen PDF-Bereich markieren kann und daraus den Text entnehmen?

Gruß, Linuchs

Beitrag melden

– Informationen zu den Bewertungsregeln

Suche Programm, um Text aus mehrspaltigem PDF zu übernehmen
Auge 23.05.2018 16:14

html

pdf
– Informationen zu den Bewertungsregeln
Hallo

ein vorhandener Fachartikel im PDF Format soll auf einer Webseite dargestellt werden.

Die Seiten sind A3 quer und ich möchte sie nach HTML umsetzen, weil die Schrift viel zu klein ist.

Leider kann ich mit meinem Linux-Programm "Dokumentenbetrachter" aufeinanderfolgende Zeilen nicht markieren, weil das Layout zweispaltig ist und beide Spalten markiert werden.

Gibt es für Linux ein Programm, das einen PDF-Bereich markieren kann und daraus den Text entnehmen?

Ich bin ehedem eine ähnliche Aufgabe, allerdings mit Scans (also Bildern) als Quelle, mit OCR angegangen. Da du, soweit ich mich erinnere, auch mit einem Ubuntu(-Derivat) unterwegs bist, bietet sich tesseract-ocr mit Ergänzung durch eine grafische Oberfläche an. Ich habe damals vietOCR benutzt, wobei nur sehr wenige Korrekturen nötig waren. Das wird aber wohl eher das Verdienst von tesseract-OCR gewesen sein. 😀

Laut der Tabelle (siehe letzter Link) hat vietOCR aber keinen PDF-Import. Das hieße, den Umweg über Screenshots, je einen pro Textspalte, zu gehen. Da aber andere Oberflächen einen PDF-Import bieten, solltest du erst einmal mit denen herumprobieren.

Tschö, Auge

--
Eine Kerze stand [auf dem Abort] bereit, und der Almanach des vergangenen Jahres hing an einer Schnur. Die Herausgeber kannten ihre Leser und druckten den Almanach auf weiches, dünnes Papier.
Kleine freie Männer von Terry Pratchett
Beitrag melden

–
Informationen zu den Bewertungsregeln
1. Suche Programm, um Text aus mehrspaltigem PDF zu übernehmen
  
  Julius 24.05.2018 01:28
  
  html
  
  pdf
  – Informationen zu den Bewertungsregeln
  Hallo Auge,
  
  Laut der Tabelle (siehe letzter Link) hat vietOCR aber keinen PDF-Import. Das hieße, den Umweg über Screenshots, je einen pro Textspalte, zu gehen.
  
  Eine Kombination aus Ghostscript und einem beliebigen Bildbearbeitungsprogramm kann sich auch als zweckmäßig erweisen.
  
  Auch GIMP kann PDFs importieren und dort können dann die einzelnen Spalten ausgeschnitten werden.
  
  Gruß
  Julius
  Beitrag melden
  
  –
  Informationen zu den Bewertungsregeln
  Übersicht
  
  alle Foren
  
  SELFHTML-Forum
  
  anmelden
  
  Benutzerkonto erstellen
  
  Beitrag im Thread-Baum
Suche Programm, um Text aus mehrspaltigem PDF zu übernehmen
Robert B. 24.05.2018 10:14

html

linux

pdf
– Informationen zu den Bewertungsregeln
Hallo Linuchs,

ein vorhandener Fachartikel im PDF Format soll auf einer Webseite dargestellt werden.

Was ist denn das Portable Dokumentenformat Format? 😉

Leider kann ich mit meinem Linux-Programm "Dokumentenbetrachter" aufeinanderfolgende Zeilen nicht markieren, weil das Layout zweispaltig ist und beide Spalten markiert werden.

Dann ist die PDF-Datei suboptimal erstellt. Es gibt AFAIK die Möglichkeit Spalten als Spalten zu setzen, was u.a. auch der Zugänglichkeit dient.

Gibt es für Linux ein Programm, das einen PDF-Bereich markieren kann und daraus den Text entnehmen?

Vielleicht kann dir Scribus helfen.

Viele Grüße
Robert
Beitrag melden

–
Informationen zu den Bewertungsregeln
1. Suche Programm, um Text aus mehrspaltigem PDF zu übernehmen
  
  Christian Kruse Homepage des Autors 24.05.2018 10:20
  
  html
  
  linux
  
  pdf
  – Informationen zu den Bewertungsregeln
  Hallo Robert,
  
  ein vorhandener Fachartikel im PDF Format soll auf einer Webseite dargestellt werden.
  
  Was ist denn das Portable Dokumentenformat Format? 😉
  
  Wenn schon klugscheissen, dann richtig: Portable Document Format Format oder portables Dokumentenformat Format 😝
  
  LG,
  CK
  
  --
  https://wwwtech.de/about
  Beitrag melden
  
  –
  Informationen zu den Bewertungsregeln
  Übersicht
  
  alle Foren
  
  SELFHTML-Forum
  
  anmelden
  
  Benutzerkonto erstellen
  
  Beitrag im Thread-Baum

SELFHTML Forum - Ergänzung zur Dokumentation Übersicht

Linuchs: Suche Programm, um Text aus mehrspaltigem PDF zu übernehmen

Suche Programm, um Text aus mehrspaltigem PDF zu übernehmen

Suche Programm, um Text aus mehrspaltigem PDF zu übernehmen

Suche Programm, um Text aus mehrspaltigem PDF zu übernehmen

Suche Programm, um Text aus mehrspaltigem PDF zu übernehmen

Suche Programm, um Text aus mehrspaltigem PDF zu übernehmen

Suche Programm, um Text aus mehrspaltigem PDF zu übernehmen