Hallo Daniel,
Außerdem solltest du vielleicht Stefan fragen, ob du nicht zugriff auf die XML-Daten bekommst.
Die zu Spiegeln und zu durchsuchen wäre bestimmt besser.
"besser" in welchem Sinne? Das kommt auf die Art der Suche an.
Die XML-Daten sind sicherlich strukturierter als die HTML-Daten, aber aus letzteren alles Wichtige herauszuparsen ist auch nicht unmöglich, solange sich das Dateiformat nicht ständig ändert.
Um die XML-Daten auszuwerten, müßte ich sie verstehen. Dort steht aber auch technische Infrastruktur drin (um den reibungslosen Forums-Betrieb zu unterstützen), die mich nicht wirklich interessiert (oder die ich ggf. gar nicht wissen darf! Ein normaler Besucher hat ja auch keinen Zugriff auf das Apache-Log des Servers, weil da diverse Dinge drin stehen, die er ggf. nicht sehen sollte).
Vielleicht reicht es mir ja einfach, die HTML-Form zu verstehen - mit der bisherigen Archivsuche funktionierte das ja auch. ;-) Die tatsächliche Suche würde ich als Performance-Gründen in jedem Falle wieder in einer 'vorkompilierten' Datenstruktur durchführen wollen (so wie die jetzige mit ihren Indexdateien).
Wichtiger wäre es m. E., Spiegelung und Archivierung zeitlich aufeinander abzustimmen:
a) weil damit die minimale Anzahl von Spiegelungsvorgängen möglich wäre (genau so viele wie Archivierungen auf dem Original-Server, jeweils direkt davor, statt irgendwann 'auf Verdacht' wie ein normaler Spider) und damit der Original-Server minimal zusätzlich belastet würde,
b) weil ansonsten alle Postings zwischen der letzten Spiegelung und der Primär-Archivierung verloren gingen. (Und um diese Zahl klein zu halten, müßte man ggf. übertrieben oft spiegeln und den Server belasten.)
Ein 99%-Archiv wäre mir immer noch weitaus lieber als ein 10%-Archiv durch Voting, aber eine Absprache mit dem Betreiber zu treffen, um *dadurch* dann sogar 100% garantieren zu können, würde ich durchaus für sinnvoll halten.
Eine solche Synchronisation wäre halt nicht notwendig gewesen, wenn ein Voll-Archivierer integraler Bestandteil des Forums selbst wäre, aber ... man kann nicht alles haben.
Viele Grüße
Michael