michse: 10 am häufigsten benutzten Wörter finden

Hallo,

ich bin auf der Suche nach einem kleinen php script welches eine URL aufruft und mir dann die 10 am häufigsten vorkommenden Wörter ausgibt (oder in ein Array oder DB übergibt). Von Vorteil wäre auch eine Beachtung einer blacklist.

Das größte Problem hierbei ist das evtl. JavaScript-Passagen und Style-Definitionen im Quellcode nicht mit berücksichtigt werden sollen. (strip_tags() entfernt leider nur html-tags).

Vielleicht habt ihr ja einen Ansatz für mich.

Schon mal vielen Dank.

  1. tags kannst Du grundsätzlich auch mit Regulären Ausdrücken entfernen. Dann bliebe nur noch der Plain-Text übrig (im Idealfall) und denn kannst Du dann ja irgendwie parsen, z. B. alle Satzzeichen und Zeilenumbrüche raus, dann explode auf Leerzeichen und dann durchläufst Du dieses Array und speicherst in einem zweiten die Häufigkeit der Wörter.

    1. Dann bliebe nur noch der Plain-Text übrig (im Idealfall)

      Der tritt leider zu selten auf. Viele Seiten im Web nutzen leider keine externen css oder js Dateien.

      Trotzdem erst mal danke für die Antwort.

    2. echo $begrüßung;

      [...] dann explode auf Leerzeichen und dann [...]

      ... kann man array_count_values() nutzen.

      echo "$verabschiedung $name";