Indexdatei für die Archivsuche
Michael N.
- zu diesem forum
0 Christian Kruse0 Michael N.0 Bio
Hallo Kollegen (speziell Ihr guten Geister, die Ihr Euch Tag und Nacht müht für das Forum zu kodieren),
erstmal ein herzliches riesiges Dankeschön.
Und dann eine knifflige Frage (für die ich eventuell auch noch geschlagen werde {Ich schrie jetzt schon AUTSCH!}):
Gibt es für die Archivsuche (altes Archiv) eine Index-Datei und in welchem Format liegt die vor (Database-Table, CSV-Liste, Datei mit fester Satzlänge), aus der man evtl. Name, E-Mail und weitere notwendige Infos herauslesen kann, wenn ja, in welchem Format kann man die bekommen (Hauptsache konvertierbar)?
An Fetz! und PAF gleichzeitig die Frage: Da die Statistik auf Selfspezial ja auf MySQL basiert, könntet Ihr eventuell mit einer Datei, die nach Euren Import-Requirements erstellt ist (z.B.: CSV oder Feste Stazlänge, oder, oder ...) (es braucht dazu ja nur Eure Spec, insofern die AltArchiv-Indexdatei die Daten hergibt) über relativ einfach die Daten in die neue Statistik importieren und ist das evtl. gewünscht oder unerwünscht?
Gleichzeitig verhänge ich (nach Erhalt der Daten und(!) der Specs und der Zustimmung von PAF und Fetz!) gegen Michael N. ein <I>, auf daß er zuhause die Konvertierung übernimmt.
Wenn Specs und Daten via URL verfügbar sind, weiß ich schon, wie ich mir die sauge. Schicken werde ich das dann an eine Adresse, die mir PAF (im Falle, der Zustimmung) gibt.
In der Hoffnung, daß ich nicht allzuviel Prügel bekomme:
Bis denndann
Michael N. (noch ohne Blessuren)
Hoi,
Und dann eine knifflige Frage (für die ich eventuell auch noch geschlagen
werde {Ich schrie jetzt schon AUTSCH!}):
Fuer sowas wird niemand geschlagen.
Gibt es für die Archivsuche (altes Archiv) eine Index-Datei und in welchem
Ja.
Format liegt die vor (Database-Table, CSV-Liste, Datei mit fester
Satzlänge), aus der man evtl. Name, E-Mail und weitere notwendige Infos
herauslesen kann, wenn ja, in welchem Format kann man die bekommen
(Hauptsache konvertierbar)?
Es gibt solche Datei(en) im CSV-Format. Die aktuelle Suche arbeitet damit.
Gleichzeitig verhänge ich (nach Erhalt der Daten und(!) der Specs und der
Zustimmung von PAF und Fetz!) gegen Michael N. ein <I>, auf daß er zuhause
die Konvertierung übernimmt.
Viel Spass.
Wenn Specs und Daten via URL verfügbar sind, weiß ich schon, wie ich mir
die sauge. Schicken werde ich das dann an eine Adresse, die mir PAF (im
Falle, der Zustimmung) gibt.
ich weiss nicht, ob das so unbedingt eine gute Idee ist. Aus zweierlei
Gruenden: erstens finde ich, dass die Statistik total ueberbewertet wird.
Das artete zwischendurch ja fast schon in Konkurrenz-Kampf aus, das ist echt
krank. Zweitens koennte, wenn die Index-Datei irgendwo liegt, jeder mal eben
so zig EMail-Adressen einsammeln. Letztenendes ist das aber auch nicht meine
Entscheidung, ich kann dazu nur sagen, was ich denke.
Gruesse aus dem schoenen LH,
c.j.k
Hallo,
Und dann eine knifflige Frage (für die ich eventuell auch noch geschlagen
werde {Ich schreie jetzt schon AUTSCH!}):
Fuer sowas wird niemand geschlagen.
Gott sei Dank.
Gleichzeitig verhänge ich (nach Erhalt der Daten und(!) der Specs und der
Zustimmung von PAF und Fetz!) gegen Michael N. ein <I>, auf daß er zuhause
die Konvertierung übernimmt.
Viel Spass.
Bisher weiß ich ja nur, daß CSV-Dateien existieren, ich hab sie ja noch nicht.
Wenn Specs und Daten via URL verfügbar sind, weiß ich schon, wie ich mir
die sauge. Schicken werde ich das dann an eine Adresse, die mir PAF (im
Falle, der Zustimmung) gibt.
ich weiss nicht, ob das so unbedingt eine gute Idee ist. Aus zweierlei
Gruenden: erstens finde ich, dass die Statistik total ueberbewertet wird.
Dadurch würde Sie ja entkrampft, da die jetztige Vielposter"Stars" gegenüber zum Beispiel Stefan irgendwo nach weit hinten rutschen würden.
Das artete zwischendurch ja fast schon in Konkurrenz-Kampf aus, das ist echt
krank. Zweitens koennte, wenn die Index-Datei irgendwo liegt, jeder mal eben
so zig EMail-Adressen einsammeln.
Deswegen hatte ich bei Threaderöffnung ja auch meine E-Mail angegeben, die E-Mail-Adressen sind innerhalb der Vielposter ja nur ein Auswertungshilfsmittel. Die URL hätte mir dann per Mail(!) gegeben werden können, ich hätte schnell die Daten gesaugt, anschließend dem entsprechenden eine Mail geschickt, daß die Seite verschwinden kann und wenn das ganze dann irgendwo ganz tief in einer für Bots und Normale User unbekannten Verzeichnis-Struktur liegt und auch nirgendwo, außer in einer Mail verlinkt, so daß man das ganze nur durch genaue Kenntnis der URL lesen kann, hat man schon für eine gewisse Sicherheit gesorgt. (OK Scan-Bots, die durchlaufende E-Mails scannen sind immer noch gefährlich, aber das sind sie auch, wenn die Datei angehängt wird.)
Bis denndann
Michael N.
Hoi,
Dadurch würde Sie ja entkrampft, da die jetztige Vielposter"Stars" gegenüber
zum Beispiel Stefan irgendwo nach weit hinten rutschen würden.
Und genau wegen dieser Einstellung halte ich das nicht fuer gut ;-)
Gruesse aus dem schoenen LH,
c.j.k
Hallo,
Dadurch würde Sie ja entkrampft, da die jetztige Vielposter"Stars" gegenüber
zum Beispiel Stefan irgendwo nach weit hinten rutschen würden.
Und genau wegen dieser Einstellung halte ich das nicht fuer gut ;-)
Vielleicht hilft es aber auch gegen die Einstellung möglichst hoch in den Stats zu kommen indem man es beinahe unmöglich macht an Stefan und einigen anderen vorbeizuziehen und dadurch könnte dann das Ranking wieder auf das kommen, was es eigentlich sein sollte, nämlich eine Erbauung und ein Spaß und kein(!) Wettbewerb. Und dann wäre ja viel erreicht.
Bis denndann
Michael N.
Moin!
Vielleicht hilft es aber auch gegen die Einstellung möglichst hoch in den Stats zu kommen indem man es beinahe unmöglich macht an Stefan und einigen anderen vorbeizuziehen
Das klappt nicht. So viele Postings gab es in der Vergangenheit nun auch wieder nicht, dass sich dieser Vorsprung nicht durch fleissiges Posten in absehbarer Zeit aufholen liese. Irgendwo muessten die Zahlen ueber das alte Archiv noch rumgammeln, keine Ahnung wo.
So long
--
Wenn Wahlen etwas ändern könnten, würden sie sofort verboten werden.
Hoi,
Vielleicht hilft es aber auch gegen die Einstellung möglichst hoch in den
Stats zu kommen indem man es beinahe unmöglich macht an Stefan und einigen
anderen vorbeizuziehen
Das klappt nicht. So viele Postings gab es in der Vergangenheit nun auch
wieder nicht, dass sich dieser Vorsprung nicht durch fleissiges Posten in
absehbarer Zeit aufholen liese. Irgendwo muessten die Zahlen ueber das alte
Archiv noch rumgammeln, keine Ahnung wo.
Meinst du das?
http://www.atomic-eggs.com/selfspezial/top20.gif
Wenn Wahlen etwas ändern könnten, würden sie sofort verboten werden.
Wie wahr, wie wahr.
Gruesse aus dem schoenen LH,
c.j.k
Irgendwo muessten die Zahlen ueber das alte Archiv noch rumgammeln,
keine Ahnung wo.
http://www.atomic-eggs.com/selfspezial/sstatvps.html
http://www.atomic-eggs.com/selfspezial/top20.gif
Hallo,
Irgendwo muessten die Zahlen ueber das alte Archiv noch rumgammeln,
keine Ahnung wo.
Stand Januar 2000(!).
Ist zwar Oktober 2000 und damit fast synchron zum Archiv, enthält das ganze aber nur als ".gif" und dann auch nur die ersten 20. Und mein Gedanke war es halt anhand des Alten Archiv-Indexes ein Flatfile zu machen, in dem alle Posts bis zur Schließung drin sind, welches dann wiederum von Fetz! und PAF importierbar ist.
Bis denndann
Michael N.
Moin!
http://www.atomic-eggs.com/selfspezial/top20.gif
Ist zwar Oktober 2000 und damit fast synchron zum Archiv, enthält das ganze aber nur als ".gif" und dann auch nur die ersten 20. Und mein Gedanke war es halt anhand des Alten Archiv-Indexes ein Flatfile zu machen, in dem alle Posts bis zur Schließung drin sind, welches dann wiederum von Fetz! und PAF importierbar ist.
Darum ging es in meinem Posting nicht. Hast Du es ueberhaupt gelesen?
So long
--
Wenn Wahlen etwas ändern könnten, würden sie sofort verboten werden.
Guten Morgen (09:49(CLT) Cologne Local Time ;-) )!
http://www.atomic-eggs.com/selfspezial/top20.gif
Ist zwar Oktober 2000 und damit fast synchron zum Archiv, enthält das ganze aber nur als ".gif" und dann auch nur die ersten 20. Und mein Gedanke war es halt anhand des Alten Archiv-Indexes ein Flatfile zu machen, in dem alle Posts bis zur Schließung drin sind, welches dann wiederum von Fetz! und PAF importierbar ist.
Darum ging es in meinem Posting nicht. Hast Du es ueberhaupt gelesen?
Wenn man das andere Postinggesamtvolumen zwischen den beiden Forumsversionen einrechnet, dann kannst Du mit Deiner Befürchtung durchaus Recht haben. Ich hab mir mal (auf der Basis der Statistiken ein paar Daten zusammengestellt, wobei die Monate Februar bis Oktober 2000 nicht berücksichtigt sind:
Periode | Monate | Postings | Monatsschnitt |
--------------------------+--------+----------+---------------+
Juli 1998 bis Januar 2000 | 19 | 51.041 | 2.686,37 |
--------------------------+--------+----------+---------------+
Mai 2001 bis 4.4.2002 | 11 | 83.760 | 7.606,36 |
--------------------------+--------+----------+---------------+
Wobei ich natürlich zusätzlich der Meinung bin (Leider fehlt mir der Beweis), daß die fehlende Periode, in der die Forumsversion 1 Online war die Zahlen noch "zugunsten" der Version 1 verschiebt. Ich hab anhand der Steigerung in der Gesamtpostingzahl der Top Twenty mal eine Abschätzung gemacht. Das führt dann zu folgender Tabelle:
Periode | Monate | Postings | Monatsschnitt |
------------------------------+--------+----------+---------------+
Juli 1998 bis Januar 2000 | 19 | 51.041 | 2.686,37 |
------------------------------+--------+----------+---------------+
Februar 2000 bis Oktober 2000 | 9 | 43.790 | 4.865,56 |*
------------------------------+--------+----------+---------------+
Juli 1998 bis Oktober 2000 | 28 | 94.831 | 3.386,82 |*
------------------------------+--------+----------+---------------+
Mai 2001 bis 4.4.2002 | 11 | 83.760 | 7.606,36 |
------------------------------+--------+----------+---------------+
Gesamtforum | 39 | 178.501 | 4.576,95 |*
------------------------------+--------+----------+---------------+
* Die in diesen Zeilen genannten Zahlen beruhen auf der Annnahme, daß die Gesamtzahl der Postings in den Monaten, über die keine Daten vorliegen in der gleichen Weise gestiegen sind, wie die Gesamtzahl der Postings bei den Top Twenty der "Abschlußstatistik". Der Bereich der langen Schließung (Oktober 2000 bis Mai 2001) wurde nicht berücksichtigt.
In der Forumsstatistik sind also noch einige weiße Flecken, die erforscht werden können, wenn denn das Zahlenmaterial komplettiert ist. Und da läßt sich dann sicher noch einiges interessantes draus ableiten (evtl. können sich dann auch Soziologen, Statistiker etc. noch kräftig in Forschungsprojekten über Internet und Internet-Gemeinschaften Dinge zutage fördern, die wiederum positiven Einfluß haben auf das Internet).
Bis denndann
Michael N.
NB: Ups, jetzt ist es auf einmal (10:41 CLT)
Moin moin!
Guten Morgen (09:49(CLT) Cologne Local Time ;-) )!
Nanu? Habt Ihr dort noch Winterzeit?
Periode | Monate | Postings | Monatsschnitt |
--------------------------+--------+----------+---------------+
Juli 1998 bis Januar 2000 | 19 | 51.041 | 2.686,37 |
--------------------------+--------+----------+---------------+
Mai 2001 bis 4.4.2002 | 11 | 83.760 | 7.606,36 |
--------------------------+--------+----------+---------------+
Man kann sich schon einieg Arbeit machen mit solchen Sachen... ;-)
Wobei ich natürlich zusätzlich der Meinung bin (Leider fehlt mir der Beweis), daß die fehlende Periode, in der die Forumsversion 1 Online war die Zahlen noch "zugunsten" der Version 1 verschiebt.
Ja, ist sehr anzunehmen (siehe auch unten).
Periode | Monate | Postings | Monatsschnitt |
------------------------------+--------+----------+---------------+
Juli 1998 bis Januar 2000 | 19 | 51.041 | 2.686,37 |
------------------------------+--------+----------+---------------+
Februar 2000 bis Oktober 2000 | 9 | 43.790 | 4.865,56 |*
------------------------------+--------+----------+---------------+
Juli 1998 bis Oktober 2000 | 28 | 94.831 | 3.386,82 |*
------------------------------+--------+----------+---------------+
Mai 2001 bis 4.4.2002 | 11 | 83.760 | 7.606,36 |
------------------------------+--------+----------+---------------+
Gesamtforum | 39 | 178.501 | 4.576,95 |*
------------------------------+--------+----------+---------------+
* Die in diesen Zeilen genannten Zahlen beruhen auf der Annnahme, daß die Gesamtzahl der Postings in den Monaten, über die keine Daten vorliegen in der gleichen Weise gestiegen sind,
"In der gleichen Weise"? In welcher Weise? Genauso linear, genauso quadratisch, genauso exponentiell? Hast Du eine Polynomfunktion 19. Grades verwendet? Oder wie hast Du das gerechnet?
Anhand der Message IDs im Archiv erkennt man, dass es bis Oct 2000 etwa 120000 Postings gab, nicht nur 94000.
In der Forumsstatistik sind also noch einige weiße Flecken, die erforscht werden können, wenn denn das Zahlenmaterial komplettiert ist.
Yoh, haste recht, aber warte mal noch ein bisschen. Ich bin gerade dabei, das alte HTML-Archiv in die XML-Struktur zu uebersetzen, dann werden sich die Daten viel leichter (und exakter) rausziehen lassen. Allerdings dauert es noch ne Weile, denn da ist verdammt viel Handarbeit dabei.
NB: Ups, jetzt ist es auf einmal (10:41 CLT)
Krass, he? ;-)
So long
--
Wenn Wahlen etwas ändern könnten, würden sie sofort verboten werden.
Hi Michael,
Und mein Gedanke war es halt anhand des Alten
Archiv-Indexes ein Flatfile zu machen, in dem
alle Posts bis zur Schließung drin sind, welches
dann wiederum von Fetz! und PAF importierbar ist.
dann laß Dir doch einfach die Archiv-Index-Dateien von der Self-Redaktion geben - und zwar diejenigen, die von der Portal-Suchmaschine verarbeitet werden.
Wobei ich natürlich zusätzlich der Meinung bin (Leider
fehlt mir der Beweis), daß die fehlende Periode, in der
die Forumsversion 1 Online war die Zahlen noch "zugunsten"
der Version 1 verschiebt.
Helfen Dir folgende Zahlen weiter?
Forums-Archiv 2002 (31.01 MB)
Forums-Archiv 2001 (30.28 MB)
Forums-Archiv 2000 (49.43 MB)
Forums-Archiv 1999 (31.17 MB)
Forums-Archiv 1998 ( 4.88 MB)
(Quelle: http://selfsuche.teamone.de/cgi-bin/such.pl)
Threads Anzahl Postings Anzahl
1998 - Q3 (2M) 00001 - 00600 600 000001 - 002340 2340
1998 - Q4 00601 - 01571 971 002341 - 006716 4376
1999 - Q1 01572 - 02721 1150 006717 - 012882 6165
1999 - Q2 02722 - 04635 1914 012883 - 022660 9778
1999 - Q3 04636 - 06946 2311 022661 - 034653 11993
1999 - Q4 06947 - 09640 2694 034654 - 048858 14205
2000 - Q1 09641 - 11860 2220 048859 - 060791 11933
2000 - Q2 11861 - 16159 4299 060792 - 081643 20582
2000 - Q3 16160 - 22000 5841 081644 - 112410 30767
2000 - Q4 (1M) 22001 - 23488 1487 112411 - 121981 9571
2001 - Q1
2001 - Q2 (2M) 23489 - 26241 2753 121982 - 137011 15030
2001 - Q3 (2M) 26242 - 29340 3099 137012 - 152747? 15736?
(die letzte Posting-Nummer habe ich nur ungefähr - das ist die höchste Posting-Nummer des letzten archivierten Threads)
Quelle: http://forum.de.selfhtml.org/archiv/
Danach Umstellung auf neues Archiv-Format, Zahlen deshalb etwas
fehlerbehaftet (ich habe per Archivsuche versucht, über das
Datum die Thread- und Posting-Nummern zu finden - nur als
Richtwerte verwendbar, ein paar Stunden Abweichung möglich):
2001 - Q4 (2M) 00001 - 01780 1780 000001 - 010380 10380
2002 - Q1 01781 - 08474 6694 010381 - 046871 36491
2002 - Q2 08474 - 046872 -
Das Posting, auf welches ich gerade antworte, ist Nr. 49080 des neuen Formats - insgesamt haben wir also vor ein paar Tagen die 200000er-Grenze überschritten.
(Wenn ich die genaue Zahl der Postings des alten Archivs wüßte, könnte ich die Posting-Nummer des "Jubiläums" berechnen - und die Archivsuche versteht Posting-Nummern als Suchbegriffe, egal ob für das alte oder das neue Forum-Format ...)
Vergleichbare Zahlen für die Postings wären auf dem Server selbst durch "wc -l" auf die Indexdateien möglich gewesen.
Viele Grüße
Michael
Sup!
Das artete zwischendurch ja fast schon in Konkurrenz-Kampf aus, das ist echt
krank.
Mir ist auch aufgefallen, dass Du alles tust, um den 5ten Platz zu verteidigen ;-)
Ich hingegen war schon mal weiter oben.
Gruesse aus dem schoenen LH,
Ist das *wirklich* schoen da?
c.j.k
Hast Du seit neuestem einen zweiten Vornamen, oder warum nennst Du Dich nicht mehr CK? *gruebel*
Gruesse,
Bio
Hoi,
Das artete zwischendurch ja fast schon in Konkurrenz-Kampf aus, das ist echt
krank.
Mir ist auch aufgefallen, dass Du alles tust, um den 5ten Platz zu
verteidigen ;-)
Wohl kaum.
Ich hingegen war schon mal weiter oben.
Und weiter?
Gruesse aus dem schoenen LH,
Ist das *wirklich* schoen da?
Komm her und verschaff dir dein eigenes Bild ;-)
c.j.k
Hast Du seit neuestem einen zweiten Vornamen, oder warum nennst Du Dich nicht
mehr CK? *gruebel*
Ich hatte schon immer einen zweiten Vornamen ;-)
Gruesse aus dem schoenen LH,
c.j.k
Aloha
c.j.k
Hast Du seit neuestem einen zweiten Vornamen, oder warum nennst Du Dich nicht
mehr CK? *gruebel*
Ich hatte schon immer einen zweiten Vornamen ;-)
Ich sehe schon, er will hier nur einen wilden spekulativen Thread auslösen á la "Wofür steht das 'j' in c.j.k". Und er lacht sich dabei 'nen Ast weil er gar keinen zweiten Vornamen hat und sich alle prügeln, ob er jetzt Jochen, Jürgen oder hmmm.... Jasmin heißt ;-)
Ciao,
Harry T. B. (höhö)
Hoi,
c.j.k
Hast Du seit neuestem einen zweiten Vornamen, oder warum nennst Du Dich nicht
mehr CK? *gruebel*
Ich hatte schon immer einen zweiten Vornamen ;-)
Ich sehe schon, er will hier nur einen wilden spekulativen Thread auslösen
á la "Wofür steht das 'j' in c.j.k". Und er lacht sich dabei 'nen Ast weil er
gar keinen zweiten Vornamen hat und sich alle prügeln, ob er jetzt Jochen,
Jürgen oder hmmm.... Jasmin heißt ;-)
Na klar ;-) Du hast es erfasst *fg*
Harry T. B. (höhö)
Tiberius? ;-)
*scnr*
Gruesse aus dem schoenen LH,
C. Johannes K.