Pascal Reckmann: Suchskript für fremdsprachige Seiten mit Grundvokabular?

Beitrag lesen

Hallo zusammen!

Ich träume von einer Suchmaschine bzw. einem Filter, der folgendes macht:

1. Ich gebe ein (spanisches) Stichwort ein: "economía"
2. Die Suchmaschine sucht entsprechende Seiten.
3. Bevor ich die Ergebnisse bekomme, gleicht ein Filter die gefunden Seiten mit einer Grundwortschatzdatei ab (und eventuell mit einer Aufbauwortschatzdatei).
4. Je höher der Anteil der Wörter aus dem Grundwortschatz bzw. niedriger der Anteil aus dem Aufbau-WS im Text, desto höher wird der Text gerankt (weil er eben für Anfänger wahrscheinlich gut geeignet ist).

Das Ganze soll eine Hilfe für Fremdsprachenlehrer sein, die Unterrichtsmaterial suchen. Es kann sich wahrscheinlich nur um eine Vorauswahl handeln, die von einem Menschen noch mal durchgesehen werden müsste.

Ich habe gerade mal rudimentäre Lesekenntnisse in serverseitigen Sprachen und würde gerne wissen, ob und mit welcher Sprache dieser Filter zu realisieren ist. Soweit ich weiß, kann man ja mit php und wohl auch perl HTML-Dateien auslesen und die Strings verarbeiten.

Allerdings tauchen auch einige Hindernisse auf. Ein Problem sind z.B. Flexionen jeglicher Art, schon allein Plural "economías", bei Verben und unregelmäßigen Verben werden die Bedingungen noch komplizierter. Außerdem muss der Filter auch wissen, welche Seiten überhaupt spanisch sind (vielleicht anhand der TLD).

Kann jemand ungefähr nachvollziehen, worauf ich hinaus will, und wie hoch der Aufwand (sowohl bei Programmierung als auch bei Rechenleistung) wäre? Und hat jemand vielleicht Interesse an einem solchem Projekt, so dass man mit mehreren Leuten zusammenarbeiten könnte?

Grüße, Pascal