Hi Frank,
Also: Suche nicht live, sondern per Index, der nach der Erstellung
zeitlich rückwärts sortiert wird (neueste oben).
Für das Archiv letzteres ja - bei den anderen (kleinen) Indexdateien ist
das nicht der Fall (die SELFHTML-Seiten sind schließlich alle gleich alt).
Bei jeder Anforderung bis zu 118,79 MB Indexdaten zu durchsuchen bringt
halt doch etwas Last auf die Maschine - und gerade bei zu vielen Treffern,
wo offensichtlich die Anfrage zu ungenau gestellt war, möchte ich lieber
so früh wie möglich abbrechen und dem Benutzer die Möglichkeit geben,
seine Anforderung zu verfeinern.
Grund für das Umgehen der Live-Suche ist wahrscheinlich der erhöhte
Ressourcenverbrauch
Den effektiven Inhalt zu extrahieren, HTML-Tags zu entfernen etc. braucht
man halt dann nur einmal zu machen und nicht immer wieder.
Außerdem sind diese Indexdateien spaltenorientiert - wenn Du nur im
Autorenfeld suchen willst, dann geht das schneller, als wenn Du das
gesamte Posting prüfen mußt.
(Eingelesen wird immer alles, verglichen nur das Notwendige.)
Auf dem vorherigen Server-PC war die Suche schrecklich langsam (ca. 15-20
CPU-Sekunden; auf der aktuell betriebenen Maschine ist sie rasend schnell
(vor allem dank schneller SCSI-Platten, offensichtlich gut cachendem BSD,
hinreichend viel RAM und guter Systemkonfiguration durch CK1).
da das Selfforum viel frequentiert ist und wohl keinen eigenen Server
hat
http://aktuell.de.selfhtml.org/news.htm,
und darin suchen nach '21.11.2001' bzw. '02.11.2001' (die News haben
leider keine targets ...).
Wenn dazu das Forum runtergefahren werden müßte, würde ich einen
monatlichen Intervall bevorzugen (und einen entsprechenden Hinweis
auf die Suche-Seite). Denn für ein wöchentlichen runterfahren ist
das Forum zu gut besucht.
Meines Wissens wird das Forum sogar täglich 'heruntergefahren', wenn
auch nur für wenige Sekunden - irgendwann nachts werden nämlich die
Apache-Logs gerollt. Du kannst Dir sicher vorstellen, wie unhandlich
die bei dem vorliegenden Traffic ansonsten würden - und außerdem soll
ja auch http://webalizer.teamone.de/ tagesaktuell sein, und das
wird eben irgendwann in den frühen Morgenstunden aktualisiert. (Und ja,
das ist cron-basiert.)
Wenn das Indexen der täglichen Archiv-Einträge auch nur ein paar Sekunden
dauert (sofern man dieses Tagesdelta erkennen kann -> Infrastruktur!),
dann kann man das in derselben Umschaltpause gleich mit erledigen.
Nur: Dafür muß eben jemand eine entsprechende Steuerung schreiben und
sorgfältig austesten - und Du hast ja angesichts des Plattencrashs (und
des Schadens von einem Monat Forum-Historie) gesehen, wie schwierig es
ist, dem Server erst mal eine zuverlässige Datensicherung zu geben.
Also: Eins nach dem anderen.
Viele Grüße
Michael