Bitte beruhige Dich. Es lag mir fern, das bestehende - und super laufende - Script oder Dich zu kritisieren. So möchte ich diese Diskussion nicht verstandenen haben.
No problem - ich fühlte mich nicht "angegriffen". Ich meinte nur, Du machst den zweiten Schritt vor dem ersten. "Kritik" kann ja auch konstruktiv sein (Deine ist es), aber dennoch das eigentliche Thema verfehlt haben.
Jede Software unterliegt einem Lebenszyklus. Und da ohnehin über das Thema diskutiert wird, kann man auch gleich darüber nachdenken, ob das Script auch künftig den Anforderungen genügt. Es sollte ein Vorschlag sein. Mehr nicht.
Yep. Allerdings hast Du in den unendlichen Weiten des Universums argumentiert, während Stefan und ich in der Kenntnis der vorliegenden Dokumentformate dachten.
So sehe ich schon, daß bald Handlungsbedarf entstehen wird. Mit bald meine ich nicht heute oder morgen oder nächste Woche aber doch einen absehbaren Zeitraum.
Zustimmung - deshalb diskutiere ich ja auch mit. Und seitdem Stefan eine Aufrüstung des Servers (nicht *wegen* dem Archiv, sondern vielleicht einfach wegen anderer Kunden des Providers!) auszuschließen scheint ...
Den Volltextindex wollte ich nicht angegriffen wissen. Mein Vorschlag sollte eine Altermative zur Diskussion (!) stellen.
Aber der erste Schritt wäre gewesen: Was *genau* wollen wir überhaupt erreichen (aus Sicht des Benutzers)? Den hast Du irgendwie wegoptimiert. (cc -O4 ;-)
Es gibt eine Aussage von Stefan zu diesem Thema: Auch der bisherige Indexer konnte das schon mal, und die Ersparnis war nicht signifikant.
Jepp. Wobei Stefan von einem Volltextindex ausging und ich von einem Schlagwortindex. Ein kleiner Unterschied :-)
Ganz genau.
Denn woher nehmen wir eine Verschlagwortung eines derartig heterogenen Archivinhaltes? Auf dieser semantischen Ebene möchte ich die Diskussion führen, bevor ich über ein Modell zur Implementierung nachdenke.
Wir haben einfach die Daten nicht, auf denen Du aufsetzen möchtest. (Ich würde auch gerne eine Schlagwortsuche machen!)
Voraussetzung ist, daß Stefan den SelfHTML-Source nicht ändern möchte; es wäre auch eine Schweinearbeit ... und vor allem: Für das Archiv - und darum geht es ja vor allem - macht garantiert niemand nie nicht diese Arbeit. Jedenfalls nicht manuell. Also ... ?
Halt, Kutscher: Mir fällt gerade ein, daß SelfHTML in gewisser rudimentärer Weise ja doch verschlagwortet ist, und zwar über das Stichwortverzeichnis. Nur braucht man dafür dann keine Suchmaschine, sondern kann einfach diese Seite laden und darin positionieren ... was ich bisher auch immer getan habe, wenn ich eine Suchstrategie in Deinem Sinne anwenden wollte.
Nein. Ich wollte damit ein Konzept aufzeigen in einer solchen DB beide Strukturen, Doku und Forum zu vereinen. die Referenzen zu Selfhtml brauchen z.B. weder Autor noch Datum jeweils mitzuführen.
Letzteres halte ich für kein Problem. Der Autor kann wie von Stefan vorgeschlagen leer bleiben, ein Datum aus dem Verzeichniseintrag der Datei zu gewinnen ist ein Fünfzeiler oder so.
Für mich ist das bereits dieselbe Struktur - mit kleinen semantischen Sondereffekten, mit denen das Suchverfahren fertig werden wird.
Oder gewinnen wir doch ? *grübel* So fit bin ich jetzt mit der jetzigen Suche nicht.
Üben ... ;-))) Oder Fragen stellen, die in ein Handbuch münden könnten.
Ist es möglich zu fragen nach Autor Muenz und Titel enthält 'Frame' und Text enthält 'Resolution' ?
ich glaube nicht. Mit einer DB im Hintergrund wäre das kein Problem.
Hervorragende Frage! Die Antwort lautet: Nein, aber ...
Calocybe hat das bereits in der Diskussion zum Entwurf der heutigen Version des Suchskripts vorgeschlagen. Und wenn Du Dir das Format des Suchindexes verinnerlichst, dann wirst Du sofort sehen, daß so etwas zu implementieren gar kein Problem wäre: Die erforderlichen Informationen sind vorhanden.
Es fehlen derzeit lediglich
1. eine Syntax für das Formulareingabefeld ("+autor:Muenz +titel:Frame +text:Resolution" - wäre Dir das so recht? "autor" oder "verfasser"? Schlüsselworte case-sensitiv oder nicht? usw. - *das* ist der Teil der Arbeit, den ich nicht alleine machen kann, denn *Du* mußt es nachher bedienen können und *wollen*),
2. eine minimale Erweiterung im Parser (der legt bisher eine Liste von Suchbegriffen ab und bräuchte dann eine Liste von Paaren aus Suchbegriff und Suchraum) und
3. eine minimale Erweiterung im Vergleicher (der bisher den Suchraum global aus den CGI-Parametern bestimmt und ihn nun aus der Liste nehmen muß).
Wenn Du mich davon überzeugen kannst, daß Du selbst solche Abfragen benutzen würdest (außer Calocybe und ggf. mir selbst hatte es niemand haben wollen, und wir kennen halt die Sources des Forums), baue ich es ein - im Entwurf meiner Datenstrukturen habe ich eine solche Erweiterung prinzipiell bereits berücksichtigt.
Es liegt also nicht an der fehlenden Datenbank, sondern an der dadurch noch weiter komplizierten Eingabesyntax für die DAUs - und meiner Unfähigkeit, die schon jetzt vorhandenen Möglichkeiten der Forumssuche didaktisch an die Frau zu bringen. ;-) Denn wer mit der Sucherei schon jetzt nichts findet, der wird auch zukünftige Verbesserungen kaum nutzen können.
Stefan hatte mal eine Statistik der Suchbegriffe gemacht - gibt es dafür ein Skript? Wie hoch ist die Prozentrate der Suchvorgänge, die mehr als einen Suchbegriff innerhalb einer Anfrage verwenden? (Bei mir sind mindestens 2-3 pro Suche - nach nur *einem* Begriff suche ich höchstens mal zu Testzwecken oder um Postings einer bestimmten Sorte zu zählen, nicht aber, um gezielt etwas zu finden.)
Da ist dann nix mehr mit rechtzeitig abbrechen ...
Jein. Je nach DB kann man Row- und Runtimebeschränkungen vorgeben :-)
Das ist nicht der Punkt, den ich meinte. (<OT>rownum kenne ich, runtime habe ich noch nicht gesehen - das wäre dann aber auch lastabhängig und damit das Ergebnis einer Query ggf. nicht reproduzierbar?!!?</OT>)
Wenn die Datenbank einen JOIN macht und die erste Projektion macht 100 Treffer, die zweite aber 10000, dann berechnet die Engine in vielen Fällen alle 10100 Zwischentreffer und JOINt erst danach (wenn der Optimizer das nicht vorher erkannt hat). Mein Suchskript würde in *diesem* Falle die zweite Projektion nur für die 100 Treffer der ersten durchführen - das *kann* besser sein.
Der Optimizer rät gemäß seiner Fähigkeiten und Informationen - siehe ANALYZE TABLE -, das Suchskript beschränkt sich auf eine einfache Strategie mit geschachtelten Vergleichen und wird im *Schnitt* schlechter liegen, braucht dafür aber keine Infrastruktur.
Calm down. ;-)
?!!? ;-)))
Ich sprach von echten Phrasen. Also 'Vorschlag zum Forum' und nicht 'Vorschlag' AND 'zum' AND 'Forum'. Die Jetzige Suche beherrscht so etwas, mein Vorschlag würde solche Phrasen nicht beherrschen.
Das kommt darauf an, wie Deine Schlagworte bestimmt werden sollen.
Gäbe es im SelfHTML-Source Metainformationen zur Schlagwortbeschreibung, dann könnten diese auch Phrasen enthalten. Es müßte sie nur jemand erfassen ...
Meines Wissens ist die Technologie des Automatischen Verstehens von Dokumenten noch nicht annähernd perfekt, auch wenn Firmen wie SER System mit ihrer Knowledge Base schon reichlich Fernsehwerbung dazu machen. (Benutzt einer der werten Leser so etwas bereits? Wie wäre es mit einem kurzen Erfahrungsbericht? Das würde mich interessieren ...)
Das ist mir klar. Noch einmal. Es geht mir nicht darum, das bestehende Script schlecht zu machen.
Hatte ich nie so verstanden.
Irgendwie sehe ich im Moment keinen zwingenden Grund für den Datenbankansatz ... nicht, daß er mir keinen Spaß machen würde, weit gefehlt ...
Well, endlich sind wir bei der Diskussion. :-)
Waren wir die ganze Zeit - nur mit verschiedenen Weltbildern. ;-)
Das ist letzlich nämlich die Frage: Macht es Sinn oder nicht. Imho ist es momentan vielleicht noch nicht unbedingt zwingend aber es macht Sinn.
Nach Stefans Angaben gibt es halt noch Randbedingungen technischer und finanzieller Art.
Zeige mir den Weg zum Oracle-Server für umsonst, dann können wir Deine eierlegende Wollmilchsau vielleicht zusammen basteln ...