hotti: Indizierung von HTML Dokumenten

Beitrag lesen

Hello,

»» Um einzelne Worte zu bekommen, splitte den Text nach \s+. Duplikate haust Du dann raus mit einem hash.

Er müsste sie gewichten. Und im Index auch vermerken, auf welcher Seite das Suchwort wie oft vorkommt.

Letzteres schon. Die Wichtung nicht unbedingt, nur dann, wenn die Suche, die auf den Index aufsetzt, nach einer solchen Relevanz die Ergebnisse ausgibt, z.B. sortiert (so auf meiner Site, siehe match-Method bei Perl-Modul Text::Query).

Hotte

--
Wenn der Kommentar nicht zum Code passt, kann auch der Code falsch sein.