Christopher: Spracherkennung

Hallo Leute,

ich habe mir in JAVA einen eigenen SMTP-Document-Server programmiert
der eingehende EMails filtert und nach einem bestimmten Muster in
der Datenbank speichert. Nun habe ich das Problem, dass ich an einer
Stelle die zugrundeliegende Sprache einer EMail herausbekommen muss.
Die Sprache der EMail kann anfänglich nur Deutsch oder Englisch sein.
Die Information, ob der Titel oder der Content immer wiederkehrende,
sozusagen statische Konstanten beinhaltet, liegt mir leider nicht
vor. Daher würde es also nicht ausreichen zB eben jene Konstanten
sprachabhängig in einer CSV-Datei zu hinterlegen und die eingehenden
Mails anhand dieser Werte zu durchsuchen und davon abhängig dann
schließlich einer Sprache zuzuordnen.

Nun meine Fragen an Euch:
Wie würdet ihr in so einem Fall am performantesten vorgehen?
Bzw. Gibt es _überhaupt_ einen Lösungsansatz für dieses Problem?
Oder gibt es vllt. Web-Services, die einem so etwas anbieten?

Sollte ich Informationen vergessen haben zu erwähnen, so sagt
mir bitte bescheid.

Besten Dank für eure Bemühungen
Christopher

  1. Hallo Leute,

    Nun habe ich das Problem, dass ich an einer
    Stelle die zugrundeliegende Sprache einer EMail herausbekommen muss.
    Die Sprache der EMail kann anfänglich nur Deutsch oder Englisch sein.
    Bzw. Gibt es _überhaupt_ einen Lösungsansatz für dieses Problem?

    Einen allgemein gültigen Lösungsansatz gibt es wohl nicht. Es kommt drauf an, wie genau und zuverlässig es sein muss. Sehr ungenau wäre jeweils einer der folgenden Ansätze:

    Kommen im Text Umlaute (äöüß) vor? - Dann ist es Deutsch.
    Kommt im Text mehrfach die Wortendung "ed" vor? - Dann ist es Englisch.
    Kommen im Text rein deutsche Artikel (der, das, es, ein, ...) vor? - Dann ist es Deutsch. (Achtung "die" ist problematisch ;-))
    Kommen im Text rein englische Artikel (the, this, it, a, ...) vor? - Dann ist es Englisch.
    ... to be continued

    Genauer wird es, wenn man mehrere dieser Ansätze kombiniert, je mehr, umso genauer. Es wird dann natürlich auch sehr schnell unperformant.

    Ähnliche Probleme behandeln Stemming Algorithmen. Hier wird versucht auf den Wortstamm eines Wortes in geschriebenem Text zu schließen. Eventuell findest Du ja hier weitere Anregungen.

    viele Grüße

    Axel

    1. Hallo Axel,

      danke für den Link. werde mir das mal anschauen.
      Habe mitterweile ein paar Anbieter gefunden, teils
      kommerziell, die eine Solche Prüfung als Software
      und/oder sogar Webservice anbieten. Habe nächstes
      Jahr erst wieder ein Gespräch mit dem Kunden. Wenn
      er Geld dafür bezahlen möchte würde es mir die
      Sache um einiges erleichtern ;)

      Frohe Weihnachten
      Christopher

  2. Hallo Freunde des gehobenen Forumsgenusses,

    Schau dir mal den Artikel "A Plan for Spam" an, man kann prinzipiell auch Texte in Deutsch/Englisch/Französisch/etc. einsortieren lassen. Das geht wahrscheinlich sogar wesentlich besser, als bei Spam, weil Spammer im Gegensatz zu Anwendern, die normale Mails schreiben versuchen, um diese Filter herunzukommen.

    Ich habe selbst einen Filter implementiert, der Text in beliebig viele Kategorien einteilen kann, leider in PHP:
    V-Text-Categorizer.

    Findest du den Text dazu hilfreich?

    Gruß
    Alexander Brock

    --
    Ceterum censeo Carthaginem esse delendam