Antonio: Hilfe bei Suchmaschine

Hey,
ich wollte mir mit PERL eine suchmaschine basteln für meine eigene webseite.
nun steh ich vor einem riesigen problem "wie mach ich das am besten"?

Ich habe es mir so gedacht. Ich schreibe jeden link auf meiner webseite den ich durchsuchen will in eine datei und lass dann jeden link öffnen und nach dem suchbegriff suchen. Wenn etwas gefunden wurde wird mit push das ergebnis in ein array geschrieben und danach ausgegeben

Einige fragen hab ich dazu aber. Sorry ich hab noch nicht so lange mit PERL zu tun
1.Wie kann ich es machen das das skript von dem pfad auf dem es liegt alle weiteren pfade nach oben automatisch durchsucht? oder wie kann ich am besten einen "index" aufbauen?
2.Wenn ich auf mehreren seiten ein ergebnis habe wie kann ich dann auch mehr ergebnise ausgeben? mit push kann ich ja immer nur einen wert übergeben oder wie sollte ich das am besten lösen?
3.soll ich dazu das Modul LWP::Simple benutzen?
4.auf was muss ich generel achten?

Sagt mir jetzt bitte nicht das ich das gar nicht erst versuchen sollte ich will es umbedingt irgendwie schaffen ;-))

ich habe bereits fleissig gegoogelt aber nichts gefunden und ich will AUF KEINEN FALL das modul Web::Scaper oder ähnlich benutzen.

Vielen herzlichen dank im vorraus

  1. Hallo Antonio!

    Hey,
    ich wollte mir mit PERL eine suchmaschine basteln für meine eigene webseite.
    nun steh ich vor einem riesigen problem "wie mach ich das am besten"?

    Ich stand beim Relaunch meiner Seiten 2006 vor dem selben Wunsch, und habe dann auf ein fertiges Skript zurückgegriffen. Ich habe es auf der Seite »meiner«[1] Suche verlinkt, Günter Laudenklos war zu den Anfängen dieses Forums hier sehr aktiv.

    Das Skript ist aber etwas veraltet, ich wollte immer mal ein Neues schreiben, kam aber nicht dazu. Vielleicht gelingt Dir das ;)

    Jedenfalls kann Dir das Skript Ideen geben, wie man in etwa so etwas macht.

    [1] Ich habe das Skript um eine Subdomain-Suche erweitert so wie ein Fehler mit den Wildcards korrigiert. Frag mich aber nicht, welche Zeile, ich weiß es nicht mehr.

    Viele Grüße aus Frankfurt/Main,
    Patrick

    --

       Diblom
    _ - jenseits vom delirium - _
    [link:hatehtehpehdoppelpunktslashslashwehwehwehpunktatomicminuseggspunktcomslash]
    Nichts ist unmöglich? Doch!
    Heute schon gegökt?
  2. ich wollte mir mit PERL eine suchmaschine basteln für meine eigene webseite.
    nun steh ich vor einem riesigen problem "wie mach ich das am besten"?

    Ich weiss nicht welche Art von Daten du durchsuchen willst.
    Auf jeden fall würde ich:
    a) Durchsuchbare direktories hardkodieren
    b) Auf Verletzung der Privacy-Regel (Informationslecks durch Suche) achten
    c) Problematische Files (html) konvertieren in Suchoptimierte Files, durch ein Spezialscript.
    d) auf Zeichenencodings achten.
    e) Mir über die Datenstruktur für den Suchreport Gedanken machen, damit er in vielfältiger Weise darstellbar bleibt (Hashes statt Arrays)
    f) Vermeiden, dass ich directories unnötig öffentlich Dateirechte einräumen muss.
    g) Suchmuster (Reguläre Ausdrücke) hinsichtlich Userinput auf Hacks überprüfen und \Q \E geeignet verwemden

    In Rücksicht auf c) kann man dann es riskieren, das gesamte öffentliche Angebot auf Anfrage zu durchsuchen, ohne spezielle Indexlisten zu erstellen.

    Eine durchschnittliche Datenanforderung in BdE-Online ist ja auch nichts anderes.

    1.Wie kann ich es machen das das skript von dem pfad auf dem es liegt alle weiteren pfade nach oben automatisch durchsucht? oder wie kann ich am besten einen "index" aufbauen?

    Rekursives unkontrolliertes traversieren ist ein Sicherheitsrisiko ersten Ranges. Verwende hardcodierte directories.

    2.Wenn ich auf mehreren seiten ein ergebnis habe wie kann ich dann auch mehr ergebnise ausgeben? mit push kann ich ja immer nur einen wert übergeben oder wie sollte ich das am besten lösen?

    Verwende Hashes statt Arrays.
    ansonsten:
    push @array, @anotherarray

    3.soll ich dazu das Modul LWP::Simple benutzen?

    Welche bessere Controlle erhoffst du durch .htaccess / http Zugriff, welchen du nicht hardcodiert zentral erledigen kannst?

    4.auf was muss ich generel achten?
    Sagt mir jetzt bitte nicht das ich das gar nicht erst versuchen sollte ich will es umbedingt irgendwie schaffen ;-))

    Kein Problem. Nicht die Suche ist das Problem, sondern dein Umgang mit $userinput.

    mfg Beat

    --
    Woran ich arbeite:
    X-Torah
       <°)))o><                      ><o(((°>o