Spracherkennung von Axel Richter, 21.12.2005 09:47

Spracherkennung

Axel Richter 21.12.2005 09:47

programmiertechnik

Hallo Leute,

Nun habe ich das Problem, dass ich an einer
Stelle die zugrundeliegende Sprache einer EMail herausbekommen muss.
Die Sprache der EMail kann anfänglich nur Deutsch oder Englisch sein.
Bzw. Gibt es _überhaupt_ einen Lösungsansatz für dieses Problem?

Einen allgemein gültigen Lösungsansatz gibt es wohl nicht. Es kommt drauf an, wie genau und zuverlässig es sein muss. Sehr ungenau wäre jeweils einer der folgenden Ansätze:

Kommen im Text Umlaute (äöüß) vor? - Dann ist es Deutsch.
Kommt im Text mehrfach die Wortendung "ed" vor? - Dann ist es Englisch.
Kommen im Text rein deutsche Artikel (der, das, es, ein, ...) vor? - Dann ist es Deutsch. (Achtung "die" ist problematisch ;-))
Kommen im Text rein englische Artikel (the, this, it, a, ...) vor? - Dann ist es Englisch.
... to be continued

Genauer wird es, wenn man mehrere dieser Ansätze kombiniert, je mehr, umso genauer. Es wird dann natürlich auch sehr schnell unperformant.

Ähnliche Probleme behandeln Stemming Algorithmen. Hier wird versucht auf den Wortstamm eines Wortes in geschriebenem Text zu schließen. Eventuell findest Du ja hier weitere Anregungen.

viele Grüße

Axel

Beitrag melden

– Informationen zu den Bewertungsregeln

SELFHTML Forum - Ergänzung zur Dokumentation Übersicht

Axel Richter: Spracherkennung

Beitrag lesen

Spracherkennung

Spracherkennung

Text-Kategorisierung