1.) Umwandeln der Datei in Schwarz-weiß-pnm
2.) OCR (z.B. mit Tesseract)
3.a.) Dabei optimal auf gespeicherte Muster (aus früheren Durchläufen) zurückgreifen
Punkt 2 ggf. mit unterschiedlichen Gamma-Werten wiederholen und anhand des Verhältnisses von erkannten Grafiken und Texten untersuchen, ob die Erkennungsrate steigt. Optimales Ergebnis nutzen.
Auch Punkt 3 mit allen Mustern durchführen, bis das Ergebnis optimal ist.
- Dabei die ganze Zeit brav an die Limits von PHP (Zeit, Speicher) denken.
Da wirst Du wohl lange dran sitzen...