ursus contionabundo: Automatische Rechnungserkennung - Ganz grober Ablaufplan

Beitrag lesen

1.) Umwandeln der Datei in Schwarz-weiß-pnm

2.) OCR (z.B. mit Tesseract)

3.) erhaltenen Text parsen

3.a.) Dabei optimal auf gespeicherte Muster (aus früheren Durchläufen) zurückgreifen

Punkt 2 ggf. mit unterschiedlichen Gamma-Werten wiederholen und anhand des Verhältnisses von erkannten Grafiken und Texten untersuchen, ob die Erkennungsrate steigt. Optimales Ergebnis nutzen.

Auch Punkt 3 mit allen Mustern durchführen, bis das Ergebnis optimal ist.

  • Dabei die ganze Zeit brav an die Limits von PHP (Zeit, Speicher) denken.

Da wirst Du wohl lange dran sitzen...