Robert: UTF-8 in ISO-8859-1 plus numerische Zeichenreferenzen wandeln

Beitrag lesen

Hallöle,

Ungefähr so hatte ich das damals auch gemacht, jedoch ist es sehr rechenaufwändig, jedes Zeichen einzeln zu überprüfen. Bei großen Dateien dauerte die Berechnung auf unserem 133-MHz-Server teilweise zwei Minuten. Also beschloss ich, das Ganze etwas einfacher zu lösen, und löste die Hex-Werte auf, multiplizierte aus und kam irgendwann auf den folgenden Code aus regulären Ausdrücken, wobei die großen Seiten nur noch zwei Sekunden zu berechnen brauchten.

Mag sein, daß das bei langen Strings einen Gewinn bringt.
Bei mir mit vielen (max. ~25000) kurzen Strings (max. theoretisch 100, praktisch nicht länger als 40 Zeichen), von denen viele nur US-ASCII-Zeichen enthalten und einige wenige Strings nur wenige nicht-US-ASCII-Zeichen enthalten, nehmen sich die beiden Methoden nichts (Durchschnitt über je 20 Messungen: 12,71s <--> 12,65s - wobei der größte Teil der Zeit durch die Ausgabe der Daten verbraucht werden dürfte).

cu,
Robert