Suche nach Forums-Archiv 2002 fehlt
Frank Bergermann
- zu diesem forum
In der Suche kann man ja auch innerhalb der Archive suchen lassen.
Die Option für dieses Jahr (2002) fehlt.
Für eine Suche von Hand ist die Beitragsanzahl schon zu groß geworden, besonders wenn man unabhängig vom Beitrags-Titel suchen möchte.
Hallo Frank
In der Suche kann man ja auch innerhalb der Archive suchen lassen.
Die Option für dieses Jahr (2002) fehlt.
Für eine Suche von Hand ist die Beitragsanzahl schon zu groß geworden, besonders wenn man unabhängig vom Beitrags-Titel suchen möchte.
eine Website in der Größe und mit dem Angebot von SELFaktuell benötigt im Schnitt 2-4 professionelle Redakteure.
Da das niemand bezahlen kann und für lau keiner 8 Stunden jeden Tag arbeitet, auch Stefan nicht, denn von irgendwas muß er leben,
läuft hier alles nach dem großen I- Prinzip.
Übersetzt:
Du willst was, also mach es selbst.
Ich beglückwünsche dich. Du bist der erste Gewinner des großen I-s in diesem Jahr.
Du hast die Initiativstrafe für das Archiv 2002 gewonnen.
Hände schüttel, freude strahl
viele Grüße
Antje
PS: äh, indexer 2001 zu optimieren steht noch aus, machst du gleich so nebenbei mit oder?
Ich weiß ja nicht, wie die Suche organisiert ist, normalerweise läuft so etwas automatisch ab. Dann müßte eine zusätzliche Zeile für das Jahr 2002 im angezeigten Formular und ebenso im cgi-Script http://selfsuche.teamone.de/cgi-bin/such.pl völlig ausreichen.
Da dies sowieso irgendwann erfolgt, wäre jetzt, wo 2002 schon begonnen hat, der rechte Zeitpunkt.
Hallo Frank, <-- Anrede
Dann müßte eine zusätzliche Zeile für das Jahr 2002 im angezeigten Formular und ebenso im cgi-Script http://selfsuche.teamone.de/cgi-bin/such.pl völlig ausreichen.
tja, wenn du eh schon das Kochrezept dafür hast, dann mach's doch einfach ;-)
Nicht nur immer - rumsitzen - mitnehmen was sich grad bietet - und wenn's der Markt grad nicht hergibt unhöflich rumnölen ...
Wie schon gesagt wurde: wenn dir etwas (evtl. nur für dich Lebenswichtiges) in diesem SelfRaum fehlt, dann steuer es doch bei ...
Diese Community lebt von der Mitarbeit aller, wobei sich "Mitarbeit" nicht unbedingt nur auf "mal schnell ne Frage beantworten" oder auf "ich will haben" bezieht. Helfende Hände werden bei solch einem Projekt immer gebraucht, also nun mal "Licht an's Knie und mach das mit der Suche im Jahr 2002 mal eben.
Gruß <-- Gruß
der_bernd
Ihr seid mir Schlaumeier.
Wenn sich der CGI-Code anzeigen ließe, hätte ich das längst getan und die 2 Zeilen geändert.
Darauf hat aber nur der Betreiber Zugriff, alle anderen bekommen nur HTML angezeigt.
Spamt gefälligst nicht das Forum mit abfälligem Müll.
Die nachstehend eindeutig identifizierte Lebensform
Name : Frank_______________
Vorname : Bergmann____________
ist hiermit für den Zeitraum von
[_] 6 Monaten
[_] 12 Monaten
[_] 24 Monaten
[x] unbefristet
davon befreit, etwas zu merken, d.h. wesentliche
Verhaltensänderungen bei der Interaktion mit denkenden Wesen zu
zeigen. Die Einstufung der o.a. Person nach dem amtlichen Index
für Merkbefreiungen liegt bei dem Äquivalent von
[_] einem Mensaessen vom Vortag
[_] drei Hartkeksen in löslichem Kaffee
[_] einer Kiste Schwarzbrot in Dosen
[x] einem Quadratmeterstück Torfmoos während einer
sechswöchigen Sommerdürre
[_] einem Container erodiertem Sandstein
(Streusandqualität)
Die ausgesprochene Merkbefreiung erlischt mit dem Ablauf des
[_] __.__.19__
[_] __.__.20__
[x] der vollständigen Erosion der körperlichen
Bestandteile der o.a. Lebensform
und gilt, sofern die o.a. Lebensform durch das nachstehende
Kennzeichen als merkbefreit zu identifizieren ist:
[x] eine rote Plastiknase
[_] olives Stoffstück mit weißem Rand, auf der Schulter
zu tragen
[_] die Lebensform ist durch den Gesichtsausdruck
zweifelsfrei als unbefristet merkbefreit zu
erkennen.
Die o.a. Lebensform ist durch den Erwerb dieses
Merkbefreiungsscheins automatisch für die folgenden Tätigkeiten
qualifiziert:
[_] Markierungshütchen bei Abmarkierungsarbeiten auf
Bundesautobahnen
[_] Garderobenständer und Regenschirmständer in
Restaurants bis zu, aber nicht eingeschlossen, 3
Sterne
[_] Regelstab in Schwerwasserreaktoren
[_] Markierungsstab für das Fahrwasser im Nationalpark
Wattenmeer
[_] Landschaftsmerkmal/Orientierungshilfe in der Wüste
Gobi
[x] dem grossen I
Die Merkbefreiung für die o.a. Lebensform wurde in einem
öffentlichen Merkbefreiungsverfahren ausgesprochen und ist nach
Ablauf der Einspruchsfrist von 17 Sekunden rechtskräftig.
Datum Unterschrift Dienstsiegel
Stirnabdruck des Merkbefreiten
Diese Merkfreiung wurde elektronisch erstellt und ist deswegen
nicht unterschrieben.
PS. Nicht böse sein :-)
Verhaltensänderungen bei der Interaktion mit denkenden Wesen zu
zeigen.
Mit anderen Worten: allen nach dem Mund reden, Ja-Sager-Tum, ... :-)
Insgesamt: :-)
Hallo, zusammen!
Mit anderen Worten: allen nach dem Mund reden, Ja-Sager-Tum, ... :-)
Da haben wir ihn, den Elch! Seine Merkmale:
1.) Schön
2.) Stark
3.) Mutig
Seine Gesetze:
§ 1 Seine Kritik wird gehört
§ 2 Seine Kritik ist berechtigt
§ 3 Wenn das nicht der Fall sein sollte, sind alle anderen Jasager, Weicheier und Warmduscher.
Und so sieht er aus:
[img:http://members.tripod.com/Astrid2412/img/bp_rotflmao.jpg]
File Griese,
Stonie
Ähhh, so sieht er aus:
<img src="http://members.tripod.com/Astrid2412/img/bp_rotflmao.jpg" border=0 alt="">
Stefan Einspender ist schuld! *GRINS*
File Griese,
Stonie
Hallo Frank,
Ihr seid mir Schlaumeier.
wenn Du damit meinst, dass viele der Leute hier im Forum sich sehr
gut auf versch. Gebieten auskennen, dann hast Du da sicher recht
und danke für das Kompliment.
Wenn sich der CGI-Code anzeigen ließe, hätte ich das längst getan und die 2 Zeilen geändert.
[ ] Du hast </?m=12308&t=2171> gelesen und verstanden.
Spamt gefälligst nicht das Forum mit abfälligem Müll.
es ist nicht Dein Forum, es ist nicht das Forum, es ist UNSER Forum.
So, wenn Du Dich jetzt ausgegrenzt fühlst, dann verschwinde.
Hier noch etwas, was wirklich für Dich ganz persönlich gilt,
hoffentlich verstehst Du es:
<img src="/images/12.gif" width=320 height=240 border=0 alt="ZU DIESEM FORUM">
Viele Grüße,
Stefan
[ ] Du hast </?m=12308&t=2171> gelesen und verstanden.
Beantwortung erfolgt entsprechend der zeitlicher Reihenfolge.
[ ] Du hast </?m=12308&t=2171> gelesen und verstanden.
Beantwortung erfolgt entsprechend der zeitlicher Reihenfolge.
Ist klar, vermutlich hast Du mindestens 19 Minuten gebraucht um
Deine Gedanken in Worte zu fassen und Deinen Müll hier abzuladen.
EOT
Liebe Gemeinde,
Kraft des mir verliehenen Amtes!
Vorwurf:
<img src="/images/10.gif" width=224 height=119 border=0 alt="??!%${">
Verstoß gegen:
<img src="/images/11.gif" width=419 height=273 border=0 alt="Die elf Gebote des SELF-Forums">
Strafe:
http://www.bitwelt.de validieren
Androhung bei Wiederholung:
http://validator.w3.org/check?uri=http://www.bitwelt.de/
Fazit:
<img src="/images/01.gif" width=419 height=119 border=0 alt="Für dein Problem gibt es nur eine Lösung: SELFmade von Selbermachen.">
LG Orlando
*rotfl* -> </?m=12317&t=2171>
Hallo,
na ich habe erst letzte Woche als Schöffe bei Richter Orlando ange-
fangen, da kann sowas schonmal passieren:
Entschuldigung, kommt nicht wieder vor ;-)
http://validator.w3.org/check?uri=http%3A%2F%2Fwww.bitwelt.de%2F
Da wäre noch die Sache in Stonie's Posting, tut mir auch schrecklich
leid, der kleine Fehler ;-)
Viele Grüße,
Stefan
Hi,
http://validator.w3.org/check?uri=http%3A%2F%2Fwww.bitwelt.de%2F
Der "Validierer" bemeckert (außer den Original-Meta-Tags und des Original-Menüs, die aus mehreren Gründen unverändert bleiben sollen) die Reihenfolge der HTML-Tags in den JavaScript-Strings, obwohl diese Zeilen ausdrücklich per HTML-Kommentar ausgenommen wurden. Also ziemlich sinnlos.
Weiterhin werden die Frame-Angaben bemeckert, da nicht der DocType "Frameset" gesetzt ist. Sollte im Original-Menü ggf. geändert werden, liegt nicht in meiner Macht, sondern in Ansgars.
Da der Live-Anteil des Menüs aus JavaScript besteht und der Validierer damit nicht zurechkommt, ist sein Einsatz dafür leider sinnlos.
Ansonsten sind die Seiten IE + NS4 + NS6 + Opera5 getestet, obwohl bei der Monopolstellung IE praktisch ausreichen würde (dies will ich aber niemals fördern).
Nur das Frontpage-Animations-js muß noch auf NS6 aktualisiert werden, aber da es nur Effekte betrifft, hat dies keinen Vorrang.
Viele Grüße
Frank
http://validator.w3.org/check?uri=http%3A%2F%2Fwww.bitwelt.de%2F
Der "Validierer" bemeckert (außer den Original-Meta-Tags und des Original-Menüs, die aus mehreren Gründen unverändert bleiben sollen) die Reihenfolge der HTML-Tags in den JavaScript-Strings, obwohl diese Zeilen ausdrücklich per HTML-Kommentar ausgenommen wurden. Also ziemlich sinnlos.
Daß du die Fehler nicht verstehst, dafür kann der "Validierer" nichts.
http://www.w3.org/TR/html401/appendix/notes.html#h-B.3.2
Da der Live-Anteil des Menüs aus JavaScript besteht und der Validierer damit nicht zurechkommt, ist sein Einsatz dafür leider sinnlos.
Machst du immer andere für deine Fehler verantwortlich?
Dort geht es um Scripts, die nicht per <!-- ... //--> auskommentiert wurden. Klar, daß dort z. B. alle HTML-Endtags </...> geschrieben werden sollen, um nicht direkt als HTML interpretiert zu werden. Aber bei komplett per <!-- ... //--> auskommentierten Scripts ist das überflüssig. Der Validierer darf den Inhalt von Kommentaren nicht anmeckern. Innerhalb von Scripts vergißt er dies leider...
Machst du immer andere für deine Fehler verantwortlich?
("Du" und "Deine" wird großgeschrieben..., ist aber nicht mein Fehler ;-) )
Machst du immer andere für deine Fehler verantwortlich?
("Du" und "Deine" wird großgeschrieben..., ist aber nicht mein Fehler ;-) )
http://www.ids-mannheim.de/grammis/reform/d3-5.html
Orlando
Hallo,
Dort geht es um Scripts, die nicht per <!-- ... //--> auskommentiert
wurden. Klar, daß dort z. B. alle HTML-Endtags </...> geschrieben
werden sollen, um nicht direkt als HTML interpretiert zu werden.
Aber bei komplett per <!-- ... //--> auskommentierten Scripts ist
das überflüssig. Der Validierer darf den Inhalt von Kommentaren
nicht anmeckern. Innerhalb von Scripts vergißt er dies leider...
Du hast auch andere Fehler auf der Seite. Ausserdem beendest du den
Kommentar fruehzeitig -- mach bitte nicht den Validator fuer deine
Fehler verantwortlich. Innerhalb von Kommentaren darf die Zeichenfolge
'-->' nicht vorkommen. Dazu kommt, dass dein HTML nicht mit dem
Doctype uebereinstimmt: <meta ... /> ist XHTML, nicht HTML 4.0
Transitional. Ausserdem bekomme ich im Mozilla hinter dem WebWasher
nur eine leere, gelbe Seite zu sehen.
Fazit: du hast noch sehr, sehr viel zu lernen.
Gruesse,
CK
hallo ;-)
Ich weiß ja nicht, wie die Suche organisiert ist,
hm, ich weiß es ansatzweise.
normalerweise läuft so etwas automatisch ab.
Richtig, und in dieser Hinsicht ist das Forum und alle dazugehörigen Scripts einschließlich der Suche völlig normal.
Dann müßte eine zusätzliche Zeile für das Jahr 2002 im angezeigten Formular und ebenso im cgi-Script http://selfsuche.teamone.de/cgi-bin/such.pl völlig ausreichen.
Das ist allerdings eine katastrophale Fehleinschätzung. Es gibt zwar in der Tat "ein" Suchscript, aber es gibt leider nicht nur "eine" Datei, die dann auch durchsucht werden müßte und es gibt deutlich mehr als eine Zeile Code, die entsprechend justiert werden muß. Das ist ein ziemliches Konglomerat aus ganz verschiedenen Codezeilen, die zu ganz verschiedenen Zeitpunkten und Bedingungen "aktiviert" werden. Wenns dich interessiert, kannst du dir bei sourceforge die Quelldateien und -codes des Forums holen, den korrekten link dazu findest du, wenn du mal im Archiv für November (oder wars erst im Dezember ?) 2001 nach einem Thread mit dem Titel "Open Source" suchst.
Da dies sowieso irgendwann erfolgt, wäre jetzt, wo 2002 schon begonnen hat, der rechte Zeitpunkt.
Menno, das Neue Jahr ist noch keine zwei Wochen alt, und soooo viele postings sind aus der Forumshauptdatei noch gar nicht unten rausgetropft und im Archiv gelandet.
Deine Frage ist, wie alle Fragen, im Kern durchaus berechtigt und gehört auch hierher ins Forum - bloß kommt sie halt bissel reichlich früh. Daher sind auch die anderen Antworten vielleicht etweas harsch ausgefallen. Aber, wie Antje schon sagte: diejenigen, die das "umsetzen" bzw. realisieren, machen das nicht im Rahmen eines Arbeitsvertrages und kriegen in der Regel nicht einmal im Forum selbst wenigstens nen Dankeschön zu lesen.
Grüße aus Berlin
Christoph S.
Sup!
Das ist wirklich empörend, Frank! Die Versäumnisse von Herrn Münz und seinen unfähigen Bütteln und Steigbügelhaltern sind nicht mehr weiter hinnehmbar! Das unverzeihliche Fehlen der am 8ten Januar 2002 bereits mehr als nur zwingend notwendig gewordenen Archivsuche für 2002 ist ein Affront gegen alle Benutzer dieses Forums, für dessen Benutzung wir schliesslich genug gezahlt haben! Weiter, diese 8 Tage überschreitenden Verzögerungen bei der Bereitstellung dieses billigen Standard-Services sollten wir uns von dieser Truppe unengagierter Dampfplauderer und selbsternannter Götter des Webdesign nicht bieten lassen! Die eklatante Inkompetenz und die Schnecken zur Unehre gereichende Langsamkeit bei der Erkennung und Beseitigung schwerwiegender Mängel der hier waltenden "Admins" ist bezeichnend und erschütternd!
Endlich spricht das mal jemand an, wagt jemand, seine Stimmer wider die Mißstände zu erheben! Wir müssen ein Exempel statuieren! Laß' uns ein Zeichen setzen, indem wir diesem Scheissforum den Rücken kehren!
Geh' schon mal vor, ich komme dann nach.
SUPER-Bio
Hi Frank,
In der Suche kann man ja auch innerhalb der Archive suchen lassen.
Die Option für dieses Jahr (2002) fehlt.
ich bin zwar im Detail wahrscheinlich nicht auf dem aktuellen Stand des
Servers, aber ein paar Sachen glaube ich dazu doch erzählen zu können.
Die Suchmaschine des Self-Portals sucht nicht direkt in den Archiv-
Einträgen, genauso wenig wie sie direkt in SELFHTML 8.0 sucht.
Statt dessen sucht sie in für ihre eigenen Zwecke speziell erzeugten
Indexdateien (deren Größe im Such-Formular ja auch angezeigt wird).
Diese müssen also erst mal irgendwie hergestellt werden, bevor man in
ihnen suchen kann; anschließend ist noch ein Eintrag in einer Parameter-
datei fällig, und dann hat das Such-Skript eine zusätzliche Datenquelle.
Bei SELFHTML 8.0 war das relativ einfach. Zu SELFHTML 7.0 existierte
ein Indexer-Programm, welches die entsprechende Indexdatei erstellte
(und dabei jedes Dokument von SELFHTML 8.0 entsprechend zu einem Thread
des Archivs behandelte, insbesondere jeden mit <h1> markierten Absatz
entsprechend eines Postings - die Zieladressen der Suchmaschine sind
ja nicht Dokumente, sondern Link-Targets!). Dieses Programm wurde
gemäß der Formatänderungen der SELFHTML-8.0-Dokumente angepaßt und ein-
mal laufen gelassen, und schon war SELFHTML 8.0 durchsuchbar.
Für das Archiv müßte ebenfalls ein Mechanismus her, der solche Index-
Einträge erstellen würde.
Allerdings befindet sich das Archiv in ständigem Fluß - jede Sekunde
kann durch den automatischen Archivierungsmechanismus der Forum-Software
ein neuer Thread (oder gar mehrere) dorthin übernommen werden.
Man müßte also entweder periodisch einen Indexer über das Archiv (oder
einen entsprechenden Teil desselben) laufen und die entsprechende
Indexdatei immer wieder neu bilden lassen, oder - eleganter - der Forum-
Software beibringen, als Seiteneffekt des Archivierens auch gleich die
entsprechenden Indexeinträge zu erzeugen und der Indexdatei hinzuzufügen.
Bei der bis zum Jahre 2000 eingesetzten Forum-Software war letzteres
die verwendete Realisierungsmethode (das Archiv wurde von Stefan Münz
an ein bestehendes Matt-Wright-Forum-Skript "dran programmiert", und
die Suche ebenfalls).
Dies ist aber nicht beliebig einfach. Denn die Indexdateien sind - was
das Forum-Archiv angeht - ganz bewußt in umgekehrter historischer Reihen-
folge sortiert, damit im Falle des vorzeitigen Erreichens des Treffer-
Limits jeweils die neuesten und nicht die ältesten Treffer angezeigt
werden. Diese Sortierung wurde für die alten Jahrgänge manuell (UNIX-sort)
erzeugt - für inkrementell einfließende neue Daten wäre noch ein entspre-
chender Mechanismus zu erfinden, falls dieses Feature weiter unterstützt
werden sollte.
Seit knapp einem Jahr gibt es meines Wissens keine automatische Forums-
Indexierung mehr. Der (abgeschlossene) Jahrgang 2001 ist nur bis zum
28. November indexiert:
http://selfsuche.teamone.de/cgi-bin/such.pl?suchausdruck=29.11.2001&feld=alle&index_4=on&hits=1
http://selfsuche.teamone.de/cgi-bin/such.pl?suchausdruck=30.11.2001&feld=alle&index_4=on&hits=1
Neuere Indexdaten sind wohl dem Festplatten-Crash zum Opfer gefallen; die
letzte vorhandene Woche des 2001er-Archiv ist allerdings nicht geindext.
Außerdem sind die Einträge seit August ans Ende der Indexdatei gehängt
worden:
http://selfsuche.teamone.de/cgi-bin/such.pl?suchausdruck='+'&feld=alle&index_4=on&hits=20.
Beides ist vermutlich das Ergebnis eines in unregelmäßigen Abständen
manuell gestarteten Indexer-Programms. Dies könnte man für den kompletten
Jahrgang 2001 noch mal wiederholen, um auch die erste Dezemberwoche des
Archivs noch durchsuchbar zu machen - und mit ihm könnte man auch weiterhin
ab und zu mal einen weiteren Teil des angelaufenen Archivs indexen.
Ganz auf dem aktuellen Stand wird die Suche in diese Modus natürlich nie
sein; die 8 Tage, nach denen Dir das Fehlen der 2002er-Indexdatei aufge-
fallen ist, könnten durchaus ein realistischer Abstand zwischen zwei
Indexerläufen sein.
Es sei denn, jemand realisiert ein Betriebskonzept, welches es ermöglicht,
diesen Indexerlauf zuverlässig automatisch in betriebsarmen Zeiten (nachts)
durchzuführen und nach erfolgreicher Verarbeitung die zuvor verwendete
Indexdatei auszutauschen. Ob dies ohne explizite Synchronisation gegenüber
der Forum-Software (welche ggf. mitten während des Indexerlaufes den
Inhalt des Archivs ändert, falls sie nicht abgeschaltet wurde) gewagt
werden darf, ist natürlich eine andere Frage ...
Der Ansatz einer inkrementellen Indexierung wäre insofern der mächtigere,
als er sogar erlauben würde, bereits beim Eintragen eines Postings dessen
Inhalt zu indexen - an welcher Stelle der Forums-Software eine Änderung
gemacht werden muß, ist ja vielleicht nicht kriegsentscheidend.
In diesem Falle könnte nämlich sogar der aktuelle Forum-Inhalt durchsucht
werden - was vielleicht wenigstens teilweise verhindern könnte, daß die-
selbe Frage in kurzer Zeit mehrfach gestellt wird ... ;-)
In ferner Zukunft wäre vielleicht denkbar, ein eingetipptes Posting erst
mal mit einer Stoppwortliste von sprachlichem Ballast zu befreien, mit
den übrig bleibenden Worten eine Suche im aktuellen Forum durchzuführen
und neben der Preview-Version des Postings (vor dem endgültigen Eintragen)
gleich eine Liste von Links mit themenverwandten Seiten des Self-Universums
anzubieten - moderne Browser versuchen ja auch, zu erraten, was der DAU
an der Tastatur eigentlich meinte ... <eg>
Zu bedenken ist aber insbesondere, daß die derzeit eingesetzte Form der
Self-Suche nach meiner Einschätzung keine lange Zukunft hat.
Es wird seit einiger Zeit an einer neuen Realisierungsform der Suche
gearbeitet, die auf einer grundsätzlich anderen Form der Datenspeicherung
basieren soll (mySQL-Datenbank) und demzufolge für Stichwortsuchvorgänge
signifikant schneller sein wird (logarithmischer Aufwand, verglichen mit
dem "full table scan" der ektuellen Lösung). Dafür muß für die vom bishe-
rigen Skript relativ leicht zu realisierende Phrasensuche eine separate
Nachverarbeitung realisiert werden - und ob die zusätzlichen existierenden
Optionen wie die Verwendung regulärer Ausdrücke usw. sich so elegant in
SQL umsetzen lassen (oder ob diese Suchmaschine erst mal weniger Bedienungs-
komfort bekommen wird), wird auch erst herauszufinden sein.
Auf jeden Fall ist das ein Haufen Arbeit für die dort aktiven Entwickler.
Da diese Realisierung allerdings offenbar noch etwas davon entfernt ist,
einsatzbereit zu sein, bin ich nicht sicher, ob für sie bereits entspre-
chende Betriebskonzepte und Datenformate endgültig definiert sind.
Dies jedoch wäre eine Voraussetzung dafür, daß die Generierung von
"Indexeinträgen" oder was auch immer durch die Forums-Software in einer
zu der entsprechenden Schnittstelle kompatiblen Form erledigt werden kann
(vielleicht schreibt ja am Ende die Forum-Software aus Performance-Gründen
den Indexeintrag gleich selbst direkt in die mySQL-Datenbank, wer weiß?).
Unter diesen Randbedingungen ist es fraglich, ob man momentan noch eine
Lösung in die Forum-Software einbauen sollte, welche das 'alte' Format
der Indexdateien unterstützt (und sich dabei auch noch mit dem Sortie-
rungsproblem herumschlagen will, was unter mySQL keines mehr sein wird,
weil es in SQL mit 'ORDER BY' für die Treffer erschlagen wird).
Das Hauptproblem scheint mir aber zu sein, die entsprechende Erweiterung
in die Forum-Software einzubauen (nach der Spezifikation der entsprechenden
Schnittstelle). Denn die zeitlichen Ressourcen der Forum-Programmierer sind
nun mal endlich.
Die Suche im Archiv des Forums ist nach meiner Einschätzung eine ziemlich
große und relativ komplexe Baustelle, weil das Ziel der nächsten Stufe ein
ziemlich hohes ist (auch ohne Durchsuchbarkeit des Forums selbst).
Insofern solltest Du nicht _zu_ optimistisch sein mit Deinen Erwartungen.
(Ich lasse mich natürlich gerne positiv überraschen ...)
Vielleicht schreiben die Entwickler der nächsten Suchfunktion auch noch
ein paar Zeilen hierzu?
Viele Grüße
Michael
Hi Michael,
aha, und meinen Dank für die Infos.
Also: Suche nicht live, sondern per Index, der nach der Erstellung zeitlich rückwärts sortiert wird (neueste oben).
Grund für das Umgehen der Live-Suche ist wahrscheinlich der erhöhte Ressourcenverbrauch, da das Selfforum viel frequentiert ist und wohl keinen eigenen Server hat (keine Ahnung ob dem so ist).
Den Intervall im Wochenrhythmus fände ich auch gut, natürlich vorausgesetzt, daß sich der Ablauf automatisieren läßt (Stapeldatei/Cron Job).
Wenn dazu das Forum runtergefahren werden müßte, würde ich einen monatlichen Intervall bevorzugen (und einen entsprechenden Hinweis auf die Suche-Seite). Denn für ein wöchentlichen runterfahren ist das Forum zu gut besucht.
Viele Grüße
Frank
Hi Frank,
Also: Suche nicht live, sondern per Index, der nach der Erstellung
zeitlich rückwärts sortiert wird (neueste oben).
Für das Archiv letzteres ja - bei den anderen (kleinen) Indexdateien ist
das nicht der Fall (die SELFHTML-Seiten sind schließlich alle gleich alt).
Bei jeder Anforderung bis zu 118,79 MB Indexdaten zu durchsuchen bringt
halt doch etwas Last auf die Maschine - und gerade bei zu vielen Treffern,
wo offensichtlich die Anfrage zu ungenau gestellt war, möchte ich lieber
so früh wie möglich abbrechen und dem Benutzer die Möglichkeit geben,
seine Anforderung zu verfeinern.
Grund für das Umgehen der Live-Suche ist wahrscheinlich der erhöhte
Ressourcenverbrauch
Den effektiven Inhalt zu extrahieren, HTML-Tags zu entfernen etc. braucht
man halt dann nur einmal zu machen und nicht immer wieder.
Außerdem sind diese Indexdateien spaltenorientiert - wenn Du nur im
Autorenfeld suchen willst, dann geht das schneller, als wenn Du das
gesamte Posting prüfen mußt.
(Eingelesen wird immer alles, verglichen nur das Notwendige.)
Auf dem vorherigen Server-PC war die Suche schrecklich langsam (ca. 15-20
CPU-Sekunden; auf der aktuell betriebenen Maschine ist sie rasend schnell
(vor allem dank schneller SCSI-Platten, offensichtlich gut cachendem BSD,
hinreichend viel RAM und guter Systemkonfiguration durch CK1).
da das Selfforum viel frequentiert ist und wohl keinen eigenen Server
hat
http://aktuell.de.selfhtml.org/news.htm,
und darin suchen nach '21.11.2001' bzw. '02.11.2001' (die News haben
leider keine targets ...).
Wenn dazu das Forum runtergefahren werden müßte, würde ich einen
monatlichen Intervall bevorzugen (und einen entsprechenden Hinweis
auf die Suche-Seite). Denn für ein wöchentlichen runterfahren ist
das Forum zu gut besucht.
Meines Wissens wird das Forum sogar täglich 'heruntergefahren', wenn
auch nur für wenige Sekunden - irgendwann nachts werden nämlich die
Apache-Logs gerollt. Du kannst Dir sicher vorstellen, wie unhandlich
die bei dem vorliegenden Traffic ansonsten würden - und außerdem soll
ja auch http://webalizer.teamone.de/ tagesaktuell sein, und das
wird eben irgendwann in den frühen Morgenstunden aktualisiert. (Und ja,
das ist cron-basiert.)
Wenn das Indexen der täglichen Archiv-Einträge auch nur ein paar Sekunden
dauert (sofern man dieses Tagesdelta erkennen kann -> Infrastruktur!),
dann kann man das in derselben Umschaltpause gleich mit erledigen.
Nur: Dafür muß eben jemand eine entsprechende Steuerung schreiben und
sorgfältig austesten - und Du hast ja angesichts des Plattencrashs (und
des Schadens von einem Monat Forum-Historie) gesehen, wie schwierig es
ist, dem Server erst mal eine zuverlässige Datensicherung zu geben.
Also: Eins nach dem anderen.
Viele Grüße
Michael
Hoi Michael,
Bei SELFHTML 8.0 war das relativ einfach. Zu SELFHTML 7.0
existierte ein Indexer-Programm, welches die entsprechende
Indexdatei erstellte (und dabei jedes Dokument von SELFHTML 8.0
entsprechend zu einem Thread des Archivs behandelte, insbesondere
jeden mit <h1> markierten Absatz entsprechend eines
Postings - die Zieladressen der Suchmaschine sind ja nicht
Dokumente, sondern Link-Targets!). Dieses Programm wurde
gemäß der Formatänderungen der SELFHTML-8.0-Dokumente angepaßt
und einmal laufen gelassen, und schon war SELFHTML 8.0
durchsuchbar.
Jo, genau.
Für das Archiv müßte ebenfalls ein Mechanismus her, der solche
Index-Einträge erstellen würde.
Der existiert schon.
Allerdings befindet sich das Archiv in ständigem Fluß - jede
Sekunde kann durch den automatischen Archivierungsmechanismus
der Forum-Software ein neuer Thread (oder gar mehrere) dorthin
übernommen werden.
Man müßte also entweder periodisch einen Indexer über das Archiv
(oder einen entsprechenden Teil desselben) laufen und die
entsprechende Indexdatei immer wieder neu bilden lassen,
Das wird so momentan gemacht.
oder - eleganter - der Forum- Software beibringen, als
Seiteneffekt des Archivierens auch gleich die entsprechenden
Indexeinträge zu erzeugen und der Indexdatei hinzuzufügen.
Im Idealfall soll das bei der neuen Suche passieren. Aber da muessen
wir noch sehen, was passiert ;-)
Dies ist aber nicht beliebig einfach. Denn die Indexdateien
sind - was das Forum-Archiv angeht - ganz bewußt in umgekehrter
historischer Reihen-folge sortiert, damit im Falle des
vorzeitigen Erreichens des Treffer-Limits jeweils die neuesten
und nicht die ältesten Treffer angezeigt werden. Diese
Sortierung wurde für die alten Jahrgänge manuell (UNIX-sort)
erzeugt - für inkrementell einfließende neue Daten wäre noch ein
entsprechender Mechanismus zu erfinden, falls dieses Feature
weiter unterstützt werden sollte.
Der aktuelle Indexer muss nur einen Parameter aendern. Dazu bin ich
schlicht und ergreifend noch nicht gekommen.
Außerdem sind die Einträge seit August ans Ende der Indexdatei
gehängt worden:
S. O.
Beides ist vermutlich das Ergebnis eines in unregelmäßigen
Abständen manuell gestarteten Indexer-Programms.
Nee. Das Ergebnis eines Cronjobs.
Dies könnte man für den kompletten Jahrgang 2001 noch mal
wiederholen, um auch die erste Dezemberwoche des
Archivs noch durchsuchbar zu machen - und mit ihm könnte man auch
weiterhin ab und zu mal einen weiteren Teil des angelaufenen
Archivs indexen.
Ja. Das Problem hierbei ist nur, dass der Indexer in seiner aktuellen
Form aus irgendwelchen unerfindlichen Gruenden einen Memory Leek hat,
sobald er das besagte Datum erreicht -- aber auch erst da!
Ich weiss nicht, ob das ein Fehler in Perl, im Modul oder im
XML-Parser ist, auch wenn ich das letztere vermute -- Andy hatte
mal ein aehnliches Problem.
Ganz auf dem aktuellen Stand wird die Suche in diese Modus
natürlich nie sein; die 8 Tage, nach denen Dir das Fehlen der
2002er-Indexdatei aufgefallen ist, könnten durchaus ein
realistischer Abstand zwischen zwei Indexerläufen sein.
Nein, das Archiv 2002 habe ich noch nicht eingebunden. Und ich weiss
auch nicht, ob ich mir die Muehe noch machen sollte oder ob ich erst
den Indexer umschreibe.
Der Ansatz einer inkrementellen Indexierung wäre insofern der
mächtigere, als er sogar erlauben würde, bereits beim Eintragen
eines Postings dessen Inhalt zu indexen - an welcher Stelle der
Forums-Software eine Änderung gemacht werden muß, ist ja
vielleicht nicht kriegsentscheidend.
Auch das ist uU etwas, was die neue Suche machen soll. Aber das
genaue Konzept habe ich gerade nicht zur Hand.
In diesem Falle könnte nämlich sogar der aktuelle Forum-Inhalt
durchsucht werden - was vielleicht wenigstens teilweise
verhindern könnte, daß dieselbe Frage in kurzer Zeit mehrfach
gestellt wird ... ;-)
Wers glaubt... ;-)
In ferner Zukunft wäre vielleicht denkbar, ein eingetipptes
Posting erst mal mit einer Stoppwortliste von sprachlichem
Ballast zu befreien, mit den übrig bleibenden Worten eine Suche
im aktuellen Forum durchzuführen und neben der Preview-Version
des Postings (vor dem endgültigen Eintragen) gleich eine Liste
von Links mit themenverwandten Seiten des Self-Universums
anzubieten - moderne Browser versuchen ja auch, zu erraten, was
der DAU an der Tastatur eigentlich meinte ... <eg>
Die Stoppwort-Liste ist bei der neuen Suche eh mit drin.
Zu bedenken ist aber insbesondere, daß die derzeit eingesetzte
Form der Self-Suche nach meiner Einschätzung keine lange Zukunft
hat. Es wird seit einiger Zeit an einer neuen Realisierungsform
der Suche gearbeitet, die auf einer grundsätzlich anderen Form
der Datenspeicherung basieren soll (mySQL-Datenbank) und
demzufolge für Stichwortsuchvorgänge signifikant schneller sein
wird (logarithmischer Aufwand, verglichen mit dem "full table
scan" der ektuellen Lösung). Dafür muß für die vom bishe-
rigen Skript relativ leicht zu realisierende Phrasensuche eine
separate Nachverarbeitung realisiert werden - und ob die
zusätzlichen existierenden Optionen wie die Verwendung regulärer
Ausdrücke usw. sich so elegant in SQL umsetzen lassen (oder ob
diese Suchmaschine erst mal weniger Bedienungs-
komfort bekommen wird), wird auch erst herauszufinden sein.
Nein, RegExe werden nicht mehr mit dabei sein. Aus zwei einfachen
Gruenden:
MySQL unterstuetzt keine richtigen RegExe, nur *teilweise*
POSIX-RegExe
Bei einem RegEx muss in *jedem* Fall eine Volltext-Suche gemacht
werden. Beispiel: Suchbegriff ist folgender RegEx:
"[[:alpha:]]\s+[[:alpha:]]"
Tja, nun *kann* der RegEx nur auf 2 Worte matchen. Das Ergebnis
waere, dass keine Results aus der DB zurueck kommen und wir wieder
eine komplette Volltext-Suche machen muessten.
Auf jeden Fall ist das ein Haufen Arbeit für die dort aktiven
Entwickler.
Ja.
Da diese Realisierung allerdings offenbar noch etwas davon
entfernt ist, einsatzbereit zu sein, bin ich nicht sicher, ob
für sie bereits entsprechende Betriebskonzepte und Datenformate
endgültig definiert sind.
Sie sind.
Dies jedoch wäre eine Voraussetzung dafür, daß die Generierung von
"Indexeinträgen" oder was auch immer durch die Forums-Software in
einer zu der entsprechenden Schnittstelle kompatiblen Form
erledigt werden kann
In der Tat.
Unter diesen Randbedingungen ist es fraglich, ob man momentan
noch eine Lösung in die Forum-Software einbauen sollte, welche
das 'alte' Format der Indexdateien unterstützt (und sich dabei
auch noch mit dem Sortierungsproblem herumschlagen will, was
unter mySQL keines mehr sein wird, weil es in SQL mit 'ORDER BY'
für die Treffer erschlagen wird).
Nein, wird definitiv nicht gemacht, weil nicht sinnvoll (IMHO).
Die Suche im Archiv des Forums ist nach meiner Einschätzung eine
ziemlich große und relativ komplexe Baustelle, weil das Ziel der
nächsten Stufe ein ziemlich hohes ist (auch ohne Durchsuchbarkeit
des Forums selbst).
Ja, das ist richtig.
Vielleicht schreiben die Entwickler der nächsten Suchfunktion
auch noch ein paar Zeilen hierzu?
Das ist hiermit geschehen ;-) Zumindest einer der Entwickler. Ich
hoffe nur, ich habe hier keinen Unfug erzaehlt. Wenn doch, moege man
mich berichtigen.
Gruesse,
CK
Hi Christian,
Man müßte also entweder periodisch einen Indexer über das Archiv
(oder einen entsprechenden Teil desselben) laufen und die
entsprechende Indexdatei immer wieder neu bilden lassen,
Das wird so momentan gemacht.
Fein. (Täglich beim Rollen?)
Dies ist aber nicht beliebig einfach. Denn die Indexdateien
sind - was das Forum-Archiv angeht - ganz bewußt in umgekehrter
historischer Reihen-folge sortiert, damit im Falle des
vorzeitigen Erreichens des Treffer-Limits jeweils die neuesten
und nicht die ältesten Treffer angezeigt werden. Diese
Sortierung wurde für die alten Jahrgänge manuell (UNIX-sort)
erzeugt - für inkrementell einfließende neue Daten wäre noch ein
entsprechender Mechanismus zu erfinden, falls dieses Feature
weiter unterstützt werden sollte.
Der aktuelle Indexer muss nur einen Parameter aendern. Dazu bin ich
schlicht und ergreifend noch nicht gekommen.
Wie invertiert der die Reihenfolge einer ggf. 40 MB großen Datei? (Bzw. wie fügt er vorne ein?)
Ja. Das Problem hierbei ist nur, dass der Indexer in seiner aktuellen
Form aus irgendwelchen unerfindlichen Gruenden einen Memory Leek hat,
Geht das nicht auch irgendwie inkrementell (monatsweise etc.)? (Mehrere Teil-Indexdateien manuell per 'cat' zusammenmischen ist ja nicht das Problem.)
Der Ansatz einer inkrementellen Indexierung wäre insofern der
mächtigere, als er sogar erlauben würde, bereits beim Eintragen
eines Postings dessen Inhalt zu indexen - an welcher Stelle der
Forums-Software eine Änderung gemacht werden muß, ist ja
vielleicht nicht kriegsentscheidend.
Auch das ist uU etwas, was die neue Suche machen soll. Aber das
genaue Konzept habe ich gerade nicht zur Hand.
Das Spannende daran wäre, daß der Archiver dann diese Cache-Indexdatei (oder was auch immer) beim Archivieren auch wieder reduzieren müßte. Ich denke, da kommt auf den Forum-Programmierer mehr Arbeit zu als auf den Suche-Programmierer ...
- Bei einem RegEx muss in *jedem* Fall eine Volltext-Suche gemacht
werden. Beispiel: Suchbegriff ist folgender RegEx:
"[[:alpha:]]\s+[[:alpha:]]"
Tja, nun *kann* der RegEx nur auf 2 Worte matchen. Das Ergebnis
waere, dass keine Results aus der DB zurueck kommen und wir wieder
eine komplette Volltext-Suche machen muessten.
Wenn [[:alpha:]] erkennbar keine wildcard enthält, dann kannst Du immer noch eine Präfixsuche unter Verwendung des Indexbaums durchführen und dann die sehr viel kleinerer Treffermenge volltextdurchsuchen. (Genau wie bei LIKE mit wildcard rechts.)
Da diese Realisierung allerdings offenbar noch etwas davon
entfernt ist, einsatzbereit zu sein, bin ich nicht sicher, ob
für sie bereits entsprechende Betriebskonzepte und Datenformate
endgültig definiert sind.
Sie sind.
Gibt es eine API der Suche, welche von den Forum-Skripten aufgerufen werden müßte?
Viele Grüße
Michael
Hi Michael
- Bei einem RegEx muss in *jedem* Fall eine Volltext-Suche gemacht
werden. Beispiel: Suchbegriff ist folgender RegEx:
"[[:alpha:]]\s+[[:alpha:]]"
Tja, nun *kann* der RegEx nur auf 2 Worte matchen. Das Ergebnis
waere, dass keine Results aus der DB zurueck kommen und wir wieder
eine komplette Volltext-Suche machen muessten.
Wenn [[:alpha:]] erkennbar keine wildcard enthält, dann kannst Du immer noch eine Präfixsuche unter Verwendung des Indexbaums durchführen und dann die sehr viel kleinerer Treffermenge volltextdurchsuchen. (Genau wie bei LIKE mit wildcard rechts.)
Die RegExpen werden zum Suchen nur sehr wenig gebraucht, dementsprechend tief ist da natürlich auch die Priorität für dieses Feature.
Aber du hast recht, mit einem Parser für RegExpen wäre sogar noch mehr möglich damit auch mehrere Worte identifiziert werden können, nur, wo hört der gerechtfertigte Aufwand auf für ein so selten gebrauchtes Feature?
Da diese Realisierung allerdings offenbar noch etwas davon
entfernt ist, einsatzbereit zu sein, bin ich nicht sicher, ob
für sie bereits entsprechende Betriebskonzepte und Datenformate
endgültig definiert sind.
Sie sind.
So ganz endgültig stehen da vorallem die Datenformate noch nicht, sie
machen allerdings fortschritte.
Gibt es eine API der Suche, welche von den Forum-Skripten aufgerufen werden müßte?
Zur neuen Suche gibt es so etwas noch nicht.
Gruss Daniela
Hi Daniela,
Die RegExpen werden zum Suchen nur sehr wenig gebraucht,
ist das eine gefühlsmäßige Aussage, oder gibt es tatsächlich ein Skript, welches z. B. das access_log liest und die verwendeten Such-Anfragen analysiert?
dementsprechend tief ist da natürlich auch die Priorität für dieses Feature.
Klar. Kompatibilität ist nicht 'heilig'.
Gibt es eine API der Suche, welche von den Forum-Skripten aufgerufen werden müßte?
Zur neuen Suche gibt es so etwas noch nicht.
Ab diesem Moment könnte die Forum-Entwicklung parallel zur Entwicklung der neuen Suche voran getrieben werden - insofern wäre das vielleicht ein lohnender Zwischenschritt.
Viele Grüße
Michael
Hoi Michael,
Gibt es eine API der Suche, welche von den Forum-Skripten aufgerufen werden müßte?
Zur neuen Suche gibt es so etwas noch nicht.
Ab diesem Moment könnte die Forum-Entwicklung parallel zur Entwicklung
der neuen Suche voran getrieben werden - insofern wäre das vielleicht
ein lohnender Zwischenschritt.
Nicht wirklich. Denn die Suche muss nicht die API bereit stellen, sondern
das Forum -- in Form eines generellen Plugin-Konzepts. Was ich bisher
gehoert habe, sind die Drafts bereits draussen und es soll in V. 1.0
implementiert sein.
Gruesse,
CK
In der Suche kann man ja auch innerhalb der Archive suchen lassen.
Die Option für dieses Jahr (2002) fehlt.
Für eine Suche von Hand ist die Beitragsanzahl schon zu groß geworden, besonders wenn man unabhängig vom Beitrags-Titel suchen möchte.
Hallo Frank,
In der Suche kann man ja auch innerhalb der Archive suchen lassen.
Die Option für dieses Jahr (2002) fehlt.
Michael hat ja schon alles zur derzeitigen Suche geschrieben. Diese Suche ist ein "gewachsenes Gebilde", das nicht so einfach zu pflegen ist, weil es nicht vollautomatisiert arbeitet. Klar koennte man mit einigen weiteren cron-Jobs noch ein bischen mehr machen, aber das lohnt kaum noch. Denn die Suche wird derzeit neu entwickelt, wie ebenfalls schon berichtet wurde. Dass solche Sachen dauern, liegt - wie auch schon gesagt wurde - daran, dass das hier kein kapitalgeborenes Projekt ist, und dass hier kein finanziertes Team hockt, wo alle den ganzen Tag ueber schoene Dinge fuer SELFHTML programmieren koennen, sondern eine Reihe Freiwilliger, die auch mal Klausuren, beruflichen Stress, private Krisen usw. haben und sich nicht dauernd um das Projekt kuemmern koennen. Deshalb entstehen all diese Dinge langsam hier, und nicht, wie bei den vorfinanzierten "Portalen" (die dann aber meistens auch ebenso schnell wieder verschwinden, wenn sich die Finanzierung nicht rechnet) auf einen Schlag.
Mit der Suche werden wir dieses Jahr hoffentlich durchkommen und eine feine Loesung haben. Bis dahin bleibt eben alles noch so wie es ist. Das Archiv 2002 wird sicher auch "demnaechst mal irgendwann" (*g) durchsuchbar sein.
viele Gruesse
Stefan Muenz
Hallo Stefan Muenz,
Das Archiv 2002 wird sicher auch "demnaechst mal irgendwann" (*g) durchsuchbar sein.
Lob und herzlichen Dank an alle Beteiligten, daß es jetzt schon geklappt hat. Superspitzenmäßig!
Ich ahnte ja nicht, daß
Viele Grüße
Frank