Hallo!
Ich hatte heute mal ein bisschen Lust eien Suche zu programmieren, dabei ts folgendes rausgekommen: http://selfarchiv.d2g.com/
ich hoffe das stört keinen, funktioniert auch mehr schlecht als recht, habe mir das Archiv von September mal gzippet runtergeladen(7 MB), und geparst und in eine MySQL Db gechireben, beim Parsen ist aber mächtig was schiefgelaufen, denn dekomptimiert sind es nur knapp 5 MB in der DB ;-) Ist M;ySQL 3.23 mit Fulltext-Index über Thema, Titel und Body. Solte auch nach relevanz sortieren, aber nur so wie es implementiert ist, naja. Falls also die Suche nochmal nicht geht... ;-)
Aber wie gesagt ist nur 9/2002 und nur eingeschränkt nutzbar. Ich versuche das mal zu verbessern, vielleicht auch mit MySQL 4, mal sachauen. Die Threads habe ich nicht, die sind nur verlinkt.
probleme habe ich beim bearbeiten des Quellcodes, aus mir bislang nicht erklärlichen gründen funktioniert es einfach nicht(immer) die html-tags zu entfernen.
Gerade bei längeren Threads, wie http://forum.de.selfhtml.org/archiv/2002/9/22236/. Wenn ich diese Datei in PHP durch strip_tags laufen lasse, dann wird mir nic der String bis
[...]
(MEINUNG) Wenn ich das schon höre: "Bevorzugung der Reichen" von
Martin Speiser, 02. 09. 2002, 14:55 Uhr (MEINUNG) Wenn ich das schon höre:
"Bevorzugung der Reichen" von Bio, 02. 09. 2002, 16:41 Uhr (MEINUNG) Wenn ich das schon höre: "Bevorzugung der Reichen" von Martin Speiser, 02. 09. 2002, 19:16 Uhr (MEINUNG) Wenn ich das schon höre: "Bevorzugung der Reichen" von Bio, 02. 09. 2002, 20:50 Uhr (MEINUNG) Wenn ich das schon höre
zurückgegeben, es ist einfach Schluß! Und das schon oben in der Baumstruktur. Was sollen da bitte für Zeichen reinkomen die da was durcheinander bringen?
Ich habe es auch it deem Original-Quellcode versucht - schafft das jemand die html-tags aus oben angegebener Quelle zu entfernen? Ich probiere das jetzt gleich 2 Stunden lang, und habe alle erdenklichen Möglichkeiten (preg_preplace("/<(.*?)>/","",$input)...) probiert, alle Komentare probiert.... nichts hilft. Es wird immer an derselben Stelle abgebrochen. Was mache ich falsch?
Viele Grüße
Andreas