Hallo Leute,
Nun habe ich das Problem, dass ich an einer
Stelle die zugrundeliegende Sprache einer EMail herausbekommen muss.
Die Sprache der EMail kann anfänglich nur Deutsch oder Englisch sein.
Bzw. Gibt es _überhaupt_ einen Lösungsansatz für dieses Problem?
Einen allgemein gültigen Lösungsansatz gibt es wohl nicht. Es kommt drauf an, wie genau und zuverlässig es sein muss. Sehr ungenau wäre jeweils einer der folgenden Ansätze:
Kommen im Text Umlaute (äöüß) vor? - Dann ist es Deutsch.
Kommt im Text mehrfach die Wortendung "ed" vor? - Dann ist es Englisch.
Kommen im Text rein deutsche Artikel (der, das, es, ein, ...) vor? - Dann ist es Deutsch. (Achtung "die" ist problematisch ;-))
Kommen im Text rein englische Artikel (the, this, it, a, ...) vor? - Dann ist es Englisch.
... to be continued
Genauer wird es, wenn man mehrere dieser Ansätze kombiniert, je mehr, umso genauer. Es wird dann natürlich auch sehr schnell unperformant.
Ähnliche Probleme behandeln Stemming Algorithmen. Hier wird versucht auf den Wortstamm eines Wortes in geschriebenem Text zu schließen. Eventuell findest Du ja hier weitere Anregungen.
viele Grüße
Axel