Pascal Reckmann: Suchskript für fremdsprachige Seiten mit Grundvokabular?

Hallo zusammen!

Ich träume von einer Suchmaschine bzw. einem Filter, der folgendes macht:

1. Ich gebe ein (spanisches) Stichwort ein: "economía"
2. Die Suchmaschine sucht entsprechende Seiten.
3. Bevor ich die Ergebnisse bekomme, gleicht ein Filter die gefunden Seiten mit einer Grundwortschatzdatei ab (und eventuell mit einer Aufbauwortschatzdatei).
4. Je höher der Anteil der Wörter aus dem Grundwortschatz bzw. niedriger der Anteil aus dem Aufbau-WS im Text, desto höher wird der Text gerankt (weil er eben für Anfänger wahrscheinlich gut geeignet ist).

Das Ganze soll eine Hilfe für Fremdsprachenlehrer sein, die Unterrichtsmaterial suchen. Es kann sich wahrscheinlich nur um eine Vorauswahl handeln, die von einem Menschen noch mal durchgesehen werden müsste.

Ich habe gerade mal rudimentäre Lesekenntnisse in serverseitigen Sprachen und würde gerne wissen, ob und mit welcher Sprache dieser Filter zu realisieren ist. Soweit ich weiß, kann man ja mit php und wohl auch perl HTML-Dateien auslesen und die Strings verarbeiten.

Allerdings tauchen auch einige Hindernisse auf. Ein Problem sind z.B. Flexionen jeglicher Art, schon allein Plural "economías", bei Verben und unregelmäßigen Verben werden die Bedingungen noch komplizierter. Außerdem muss der Filter auch wissen, welche Seiten überhaupt spanisch sind (vielleicht anhand der TLD).

Kann jemand ungefähr nachvollziehen, worauf ich hinaus will, und wie hoch der Aufwand (sowohl bei Programmierung als auch bei Rechenleistung) wäre? Und hat jemand vielleicht Interesse an einem solchem Projekt, so dass man mit mehreren Leuten zusammenarbeiten könnte?

Grüße, Pascal

    1. Ich gebe ein (spanisches) Stichwort ein: "economía"
    2. Die Suchmaschine sucht entsprechende Seiten.
    3. Bevor ich die Ergebnisse bekomme, gleicht ein Filter die gefunden Seiten mit einer Grundwortschatzdatei ab (und eventuell mit einer Aufbauwortschatzdatei).
    4. Je höher der Anteil der Wörter aus dem Grundwortschatz bzw. niedriger der Anteil aus dem Aufbau-WS im Text, desto höher wird der Text gerankt (weil er eben für Anfänger wahrscheinlich gut geeignet ist).

    Eine interessante Suchmaschine...

    Ich habe gerade mal rudimentäre Lesekenntnisse in serverseitigen Sprachen und würde gerne wissen, ob und mit welcher Sprache dieser Filter zu realisieren ist. Soweit ich weiß, kann man ja mit php und wohl auch perl HTML-Dateien auslesen und die Strings verarbeiten.

    Es geht mit jeder serverseitigen Programmiersprache. Vielleicht bin ich da schon etwas "voreingenommen", aber ich halte Perl für die besste Wahl. Für dein Problem wirst du "regular expressions" brauchen ( geht aber auch ohne, nur etwas komplizierter ).

    Allerdings tauchen auch einige Hindernisse auf. Ein Problem sind z.B. Flexionen jeglicher Art, schon allein Plural "economías", bei Verben und unregelmäßigen Verben werden die Bedingungen noch komplizierter. Außerdem muss der Filter auch wissen, welche Seiten überhaupt spanisch sind (vielleicht anhand der TLD).

    Dahinter verstecken sich meisst ziemlich komplizierte Algorithmen, welche Wörter und Satzstrukturen analysieren. Du müsstest selber so einen programmieren. Weiteres Problem: man müsste für jede Sprache einen eigenen Algorithmus machen (viel Spass beim algo. für Deutsch)

    Kann jemand ungefähr nachvollziehen, worauf ich hinaus will, und wie hoch der Aufwand (sowohl bei Programmierung als auch bei Rechenleistung) wäre?

    Die Rechnenleistung wird wohl ziemlich beansprucht werden und steigt linear, wenn nicht sogar quadratisch mit der Grösse des Wortschatzes.
    Der Programmieraufwand hängt im wesentlichen davon ab, wie "gut" die Suchmaschine werden soll. Werden die Sprachalgorithmen komplizierter, wird der Aufwand grösser.
    Das Projekt teilt sich in 2 Stücke:

    1. Suchmaschine, Bewertung (Sortieren) und Ausgabe der Ergebnisse
    2. Algorithmen zur Auswertung, Analyse der Texte

    »»Und hat jemand vielleicht Interesse an einem solchem Projekt, so dass man mit mehreren Leuten zusammenarbeiten könnte?

    Zur Hilfe bin ich bereit, aber die Zeit reicht nicht für eine Zusammenarbeit. Hilfe auch nur im Sinne von Mailkontakt oder dieses Forums
    Für weitere Fragen bin ich auch per E-Mail zu erreichen. Auf jeden Fall würde mich die Konzeptionierung dieses Projektes schon interessieren, aber mit Programmieren kann ich nicht dienen, da ich selber ein ziemliches Projekt umzusetzen habe.

    Viele Grüsse

    Philipp