Christoph Zurnieden: (PROGRAMMIERTECHNIK) Zitate vergleichen

Beitrag lesen

Hi,

Wie könnte man so etwas machen? Ein simples "if($zitat[i] == $neues_zitat)" fällt natürlich weg. Ich dachte daran, z.B. daran, zu zählen wie oft jeder Buchstabe vorkommt und ab einer gewissen Übereinstimmung dieser Anzahl in zwei Zitaten diese als ähnlich/gleich deklarieren. Dies könnte man auch mit Wörtern machen. Problematisch ist, dass die unterschiedlichen Personen die Zitate ganz verschieden eintippen, zB:

  • Person: "Blablablabla" (07.01.05)
  • "blablablabla", Person
  • Person1 sagt blablablabl, darauf person2 blablabla
  • Person1: "blablabla"
      Person2: "blablablab"

Bis hierhin und bei ausreichender Menge könntest Du einen Spamfilter zu einem Kategorisierer umbauen. Oder es mit Fuzzy-Checksums versuchen:
Reihe alle Leerzeichen (Leerzeichen, Tabulatoren, Zeilensprünge usw) aneinander und ziehe darüber einen Hash (meinetwegen crc32). Mache genau das gleiche mit der Zeichensetzung (Punkt, Komma, Semikolon, Ausrufezeichen usw).
Kannst Du z.B. Satz- oder auch Absatzweise machen.

Das hat dann nämlich noch halbwegs Erfolgsaussichten bei ...

  • unterschiedliche Dialekte

... bei welchen sonst wahrscheinlich gar nix mehr hilfreich sein kann. Außer Handarbeit.

Hoffentlich hat mir jemand einen Tipp ;-)

Einen Tip? Laß es und versäubere einmal täglich selber. Aber schütze Dich dann mit entsprechenden Maßnahmen vor (D)DoS.

so short

Christoph Zurnieden