Ich empfehle, dass Ihr Euch auch mal Solr (http://lucene.apache.org/solr) anschaut. Das setzt auf Lucene auf, vereinfacht aber einige Dinge. Es ist im Prinzip ein Server-Prozess, der Dokumente indexieren und suchen kann.
Das ändert aber nichts daran, dass ein Abfrageinterface ähnlich dem jetztigen und Indexer, die den bisherigen Content verarbeiten können müssen, programmiert werden müssen. Dennoch danke für den Tipp, derjenige, der das Projekt übernehmen will kann sich das ja mal ansehen.
Gibt es Gründe, die gegen http://www.mnogosearch.org sprechen?
Das beackert (zumindest laut dessen Doku) das, was über HTTP veröffentlicht wird, d.h. es ist im Prinzip ein Spider, der das Webangebot abgrast. Die Grundeinheit ist "Dokument, das über HTTP ausgeliefert wird". Die bisherige Suche ist jedoch mindestens beim Forumsarchiv (ich glaube sogar auch bei SELFHTML selbst) detallierter, d.h. man wird per Anker direkt auf einen Thread im Posting weitergeleitet, wenn man auf ein Suchergebnis klickt. Das wäre mit der Lösung nicht umsetzbar. Zudem stehen im Forumsarchiv Bewertungskriterien wie "fachlich hilfreich" zur Verfügung, die man auswerten könnte. Diese Gewichtung wäre damit auch nicht umsetzbar.
Kann natürlich sein, dass man es mit irgendwelchen Tricks es doch irgendwie schafft, diese Dinge zu realisieren; die Frage ist, ob diese Tricks dann nicht mehr Aufwand sind, als gleich einen Indexer für Lucene zu schreiben - bzw. es müsste ja nicht der komplette Indexer geschrieben werden, Lucene et. al. bieten ja bereits fertige Bausteine an, die man nur noch richtig zusammenbasteln muss.