Moin Moin !
Vorweg: Ich habe (noch) nicht den ganzen Thread gelesen.
Mir kommt gerade eine ganz wilde Idee.
Wir hatten über Jahre hinweg immer mal wieder darüber nachgedacht, eine Ranking-Funktion zu implementieren.
Heute, da Googles "link popularity"-Ansatz bekannt und erfolgreich ist, müßte man sich mal fragen, ob eine vergleichbare Idee innerhalb des Archivs (Postings, auf welche viele andere Postings verlinken, sind "wertvolle" Postings) zu einem erfolgversprechenden Ansatz führen könnte ... das hätte nämlich den lustigen Nebeneffekt, daß jeder, der ein Posting kompetent (durch Setzen eines Link - er muß also die FAQ gelesen haben ;-) beantwortet, diesen Datenbestand pflegt, ohne jede zusätzliche Dialog-Software! Und wenn nur die Anzahl der Links _auf_ ein Objekt relevant sind, dann kann man diese während des Archivierungsvorgangs inkrementell erhöhen ...
Diese Idee gefällt mir sehr gut. Aber hier kommt leider eine Schwachstelle der [ link: ]-Syntax ans Tageslicht. Google kann dank der HTML-Link-Syntax einem Link einen Text/Suchbegriff zuordnen, das geht mit der SelfForum-Syntax nicht:
Der Artikel "<a href="http://www.example.com/wiki/LinksInHTMLSetzen">Links in HTML setzen</a>" erklärt das Thema erschöpfend.
[ link:?t=1234&m=5678 ] erklärt das Thema des Links setzen in HTML erschöpfend.
Anhand des HTML-Kontexts kann ein Automat (sprich: ein Programm mit HTML-Parser) erkennen, das die verlinkte Resource Informationen zu "Links", "HTML" und "setzen" liefert ("in" setze ich mal implizit auf eine Blacklist), und diese Resource für eine entsprechende Suchanfrage höher bewerten als eine Resource, auf den kein solcher Link gesetzt ist.
Im SelfHTML-Kontext fehlt diese Verbindung von Link und Stichworten. Bestenfalls könnte der Automat versuchen, anhand des umgebenden Satzes Stichworte zuzuordnen. Satzanfang und Satzende kann man über Satzzeichen, Absätze und Artikelanfang/-ende normalerweise erkennen.
Die "Millionen-Fliegen"-Methode (wenn so viele Links auf diese Resource verweisen, muß sie einfach gut sein) funktioniert natürlich bei beiden Methoden.
Zweiter Punkt dieses Ranking-Verfahrens: Es kann recht einfach sabotiert werden. Man nehme einen Troll, der Copy-and-Paste beherrscht, ein Posting mit 1.000 Links auf einen einzelnen Artikel, und einige "Troll-Selbstgespräche" mit wiederum 1.000 Links. Schon ist irgendein schwachsinniger Artikel enorm hoch bewertet.
Stumpfes Zählen von Links alleine ist ein Kriterium, darf aber nicht das einzige sein. Weitere Kriterien, die mir spontan einfallen: Verlinkung durch unterschiedliche Poster, Verlinkung über längere Zeiträume (ein Indiz für eine vollständige Problemdiskussion), Verlinkung durch Stammposter (zu erkennen anhand der Vielposter-Statistik).
Googles Page-Ranking-Algorithmus ist nicht umsonst ein Geschäftsgeheimnis.
Alexander
Nein, ich beantworte keine Fragen per eMail. Dafür ist das Forum da.
Today I will gladly share my knowledge and experience, for there are no sweeter words than "I told you so!"