Hallo Christian,
Danke fuer die ausfuehrliche Antwort. Ich will Texte indizieren, die in verschiedenen Formaten vorliegen, zB. Text, HTML, OpenDocument etc. Die Texte koennten auch aus einer Datenbank kommen. Mir geht es nur um den reinen Text, ich koennte also durchaus herausfinden, ob es, platt gesagt, Buchstaben mit Akzenten gibt und ob diese richtig kodiert sind. Wenn die Erkennnung nicht immer 100%ig ist, waere das auch nicht das Ende der Welt. Deshalb werde ich mir erstmal die Loesung mit regulaeren Ausdruck anschauen.
Gruß,
Dieter