Hi,
Meint der doch glatt, ich wär' Grundschullehrer!
Seh' ich etwa so aus?
Ne eher wie ein Körperpfleger! ;)
"A Bloom filter with 1% error and an optimal value of m, on the other hand, requires only about 9.6 bits per element" http://en.wikipedia.org/wiki/Bloom_filter#Space_and_time_advantages
Ich sag mal mit durchschnittlich 9.6 Bits kodiere ich die ganze Postingliste mit 0% Fehler. (diesmal bitte keine Bierkiste :)
1% ist aber recht viel, ein Promille ist da schon realistischer.
nee, Eigentoor, es ist sogar schlimmer, sofern dein Bloomfiltercaculator was taugt:
"Below, m denotes the number of bits in the Bloom filter,
n denotes the number of elements inserted into the Bloom filter,
k represents the number of hash functions used, and
p denotes the false positive rate.
You have given a value of 400 for n and 0.01 for p.
The smallest m is 3838; k is 7 and p is 0.009989870082546317"
ACHT HUNDERT BYTES!!!
»»http://www.cc.gatech.edu/fac/Pete.Manolios/bloom-filters/calculator.html
Kostet aber natürlich auch nicht viel mehr pro Element, das ist wohl wahr. (0% ist sehr schwierig, da müßten nicht nur alle Hashfunktion minimal perfekt sein, sondern auch alle Permutationen.)
für 0% kann man keine Bloomfilter nehmen weil die grundsätzlich verlustbehaftet sind, selbst wenns im Nanobereich läge.
Und ob das bei deinem Caching hilft?
Schau mal 400 gecachte Begriffe a ~10 Buchstaben
=> 4 KB ~ gzipt 400 B , maximal 800 B.400 *9.6 bits ~ 460 Bytes
Aber wie gesagt: 0% gibt's hier nur mit minimal perfektem Hash. Und dann kannst Du Dir die Mühe mit dem Bloomfilter eh sparen und gleich eine normale Hastabelle nehmen und als fertiges Javascript-Array mitgeben.
Mmh ...
Auch keine schlechte Idee.
Das war ja auch jetzt meine Idee ... naja macht nix. Steck deinen 400er-Cache in nen normalen JS-Hash ohne propietäre Hashfkt, das reicht doch dicke!
und zippen kann wg der Entropie auch nix helfen.
Nein, tut mir leid, _so_ leicht führst Du mich nicht auf's Glatteis, ich hab' schon bemerkt, das Du hier die Informationsbits _netto_ zugrunde gelegt hast ;-)
hmm, ne Brutto,
400 (einträge) *10 Bytes /5-10 (gzip)=800-400 Bytes
oder was? Ach so, nee! - dein _Bloomfilter_ läßt sich nicht mehr zippen war die Aussage. Ein optimal ausgelasteter Bloomfilter hat AFAIK jedes 2 Bit zufällig gesetzt.
Das Gebiet "Suche" ist derart gut bekannt, das es für weiter signifikante Fortschritte der hellsten Köpfe bedarf. Deren Auswahl unter den Bewerbern soll _extrem_ scharf sein, einige berichteten von über 20 Interviews und wurden dann doch nicht genommen. Einzige Alternative ist also massiver Hardwareeinsatz.
ui dann will ich hier öffentlich nicht mehr Tricks verraten ;)
Im ernst die Leute dürften dann in dem Bereich promoviert haben.
BTW: Würde google anbieten suchergebnisse nach Anchors zu gliedern, bräuchten wir hier keine eigene Suchmaschine...
Wenn man denen das bezahlt machen die das sicherlich gerne.
Phh, wer will den Usern verbieten google zu nutzen? Direkt linken von selfhtml.org wär nicht gartis drin, aber wenn google es leistete würdens die Self-User es von sich aus auch anwenden.
Tschau
rolf
PS: Wird einsam hier unten, meinst du es liest noch jmd mit oder sollen wir leiber aufs mailen ausweichen?