fRiEk2k: Eine andere Webpage auslesen

Hi wie lese ich den quellcode einer webpage aus, so wie diese im browser ausgegeben wir, da ich nur bestimmte textstellen, immer aktualisiert haben möchte.....kann mir da einer helfen ? thx

  1. also für einen newsfader zb.....einfach bei einer anderen seite textstellen im quellcode auslesen....

    1. Grüssi,

      also für einen newsfader zb.....einfach bei einer anderen seite textstellen im quellcode auslesen....

      ts ts ts, das gehört sich aber nicht !?! du willst Content von Seiten stehlen, die nicht dir gehören? Da ist Ärger vorprogrammiert!

      falls ich mich täusche, und du _deine_ Seiten auslesen willst, dann setze doch einfach einen Kommentar, ab dem das script auslesen beginnen soll.

      <!-- START READ -->
      ... text ...
      <!-- END READ -->

      if (Dateizeiger_auf_Anfangsmarke) {
         while (Dateizeiger_nicht_auf_Ende-marke) { lese(zeile); }
      }

      lg bernhard

      1. So eine Sache hab ich auch mal gebraucht, allerdings <u>nicht</u>, um den Inhalt anderer Seiten zu klauen, sondern nur zwischen zwei Seiten "zu kommunizieren".

        Dazu musst Du einen Socket aufbauen und zu dem Server wo die andere Seite liegt (z.B. www.irgendeineurl.de) connecten.
        Dann wird der Header gesendet. Der typische Standartheader des MSIE5.0 sieht folgendermaßen aus:

        GET /index.html HTTP/1.0
        Accept: image/gif, image/x-xbitmap, image/jpeg, image/pjpeg, application/vnd.ms-powerpoint, application/vnd.ms-excel, application/msword, */*
        Accept-Language: de
        Accept-Encoding: gzip, deflate
        User-Agent: Mozilla/4.0 (compatible; MSIE 5.01; Windows 98)
        Host: www.online.de
        Proxy-Connection: Keep-Alive

        Wichtig ist aber eigentlich nur die erste Zeile. Sie besteht aus der Übertragungsmethode (GET), gefolgt von dem Pfad der Datei und der http-spezifikation (1.0 wurde mehr für einfache Seitenabruf-Verfahren entwickelt, 1.1 eher für Streaming - doch das ist ein anderes Thema). Der Pfad ist dabei eigentlich nichts anderes als der Text, den man in der URL-Zeile des Browsers an die Adresse anhängen würde. In diesem Falle wäre der Header analog zur URL http://www.online.de/index.html . Natürlich können an den Pfad auch GET-Parameter angehangen werden, z.B. /index.html?bla=ja&hm=true . Die folgenden Headerinformationen kann man - je nach Webserver - auch weglassen.
        Die Zeilen sollten durch ein \r\n getrennt werden. Am Ende schließt man den Header mit einer Leerzeile (\r\n\r\n) ab, wie es bei Headern allgemein üblich ist.

        Hat man den Socket aufgebaut, kann man mit recv() die Seite empfangen.

        Anschließend liegt sie in dem Buffer. Der Webserver kappt danach automatisch die Verbindung, was den Socket "invalid" macht, deswegen sollte man ihn danach sofort wieder schließen.

        Genauere Informationen über Sockets findest Du auf http://www.perl.com.

        1. Moin,

          Dazu musst Du einen Socket aufbauen und zu dem Server wo die andere Seite liegt (z.B. www.irgendeineurl.de) connecten.

          GET /index.html HTTP/1.0

          netterweise hat sich schon mal jemand die Arbeit gemacht. Das Ergebnis sind die LWP-Module... ;-)

          Genauere Informationen über Sockets findest Du auf http://www.perl.com.

          http://search.cpan.org

          Viele Gruesse,

          n.d.p.