Michael Schröpl: ist JavaScript im Browser aktiviert?

Beitrag lesen

Hi Rolf,

Allerdings die Vorstellung JS zu parsen um den dynamischen HTML-Code
durchsuchbar zu machen ist - da sind wir uns einig - nicht vernuenftig
zu realisieren!

Ich würde das noch nicht mal an der Performance festmachen, sondern eher
an der grundsätzlichen Unmöglichkeit wegen Informationsdefizit.

Nehmen wir mal an, wir hätten nun tatsächlich einen JavaScript-Interpreter
geschrieben. Was tut der, wenn er an eine Stelle kommt, wo das zu inter-
pretierende JavaScript-Programm einen Wert aus einer Variable lesen will,
die in einem anderen Frame definiert ist? Oder gar in einem Java-Applet?
(Es gibt da ja doch so eine Schnittstelle zwischen Java und JavaScript.)
Wenn das Ergebnis des JavaScript-Programms von Eingabedaten abhängt, die
von außerhalb des analysierten Dokuments stammen, dann haben wir ein Pro-
blem.

Um dies zu modellieren, müßte nicht nur ein JavaScript-Interpreter her,
sondern der Suchmaschinen-Crawler (von der die ganze Fragestellung ja
ausging) müßte einen Browser simulieren, also in der Lage sein, beliebig
viele Dokumente gleichzeitig verfügbar zu halten und nicht nur JavaScript,
sondern auch noch DOM und Java und was auch immer verstehen.

Bisher reicht es dem Crawler aus, ein Dokument zu saugen, dessen Inhalt zu
parsen, Links zu extrahieren und mit diesen rekursiv weitere Crawling-
Operationen zu starten - er kann also jedes Dokument isoliert verarbeiten.
Mit diesem Ansatz kommt er aber bei JavaScript nicht arg weit ...

Viele Grüße
      Michael