diego: Suchmaschinenergebnisse filtern!

Beitrag lesen

In jedem Falle, das ist richtig, benötigst Du zunächst den Inhalt der fremden HTML-Seite (Resultpage des Indexdienstes) in einer lokalen Variable. Dazu kannst Du ISAPI-Komponenten verwenden. Phillips Ansatz hierzu (httpCon)ist eine gängige Methode gewesen, bis XML bekannter wurde. Mittels "Set objXmlHttp = Server.CreateObject("Msxml2.ServerXMLHTTP")" kannst Du das ganze in einen XML-Stream laden, was u.a. auch die Möglichkeit bietet, erweiterte Headers, Authent etc. an die Seite zu senden.

In jedem Falle ist der zweite Schritt das Auswerten des nun vorliegenden Strings. Im Gegensatz zur INSTR Function solltest Du jedoch besser regular expressions verwenden, da in dem von Dir aufgezeigten Falle eine Reihe von Ergebnisssätzen nach einem relativ festen Muster zu erwarten sind.

Zu guter letzt brauchst Du die gewonnenen Infos in jeder nun existenten Variable nur noch zur DB zu pinseln, mittels simplen ADO.COMMANDS (ist besser und fixer, als die üblichen Conn.Execute(Query) oder Recordset AddNew Methoden und verhindert auftretende Fehler, falls ein ' oder ähnliches Commandsign mal nicht ordnungsgemäß escaped sind. Ausserdem erleichtert die Command-Property Methode es auch, das Ganze in einem Loop einzubinden:

- Define DB-Command
 - Define external URL
 - get URL
 - parse varURLcontent
     - (loop, solange matches im String zu finden sind) for each match
                      Command-Parameter1 = blah1 (zb URL)
                      Command-Parameter2 = blah2... (zb Description)
cleanup

Denk in jedem Falle dran, daß Du eventuell den ResultURL auch auf das Vorhandensein weiterer Resultpages scannen musst.

BTW, das Ganze habe ich vor geraumer Zeit für das Durchsuchen von einigen *.EDU sites geschrieben und es archiviert von dortaus diverse akademische Texte, da diese oftmals recht schnell wieder von den Seiten verschwanden und ich sie nicht rechtzeitig lesen konnte. Ein kleines Tool hilft mir dann hier lokal noch, wenn z.b eine Suchmaschine den Eintrag noch hat, aber das Dokument am Server nicht mehr vorliegt und leitet mich dann automatisch auf meine lokale Resource um (SQL-Server)
Ich schätze mal, das von Dir angestrebte Tool soll ähnliches erreichen (Vorabfilterung von Contents zur leichteren Auffindung von relevanten Inhalten im Web)