Manu: Ganze Webseiten Speichern (inkl. Bildern)

Hi zusammen,

ich suche nach einer Möglichkeit von einer Webseite per Script ein komplettes Abbild zu ziehen, inkl. der Bilder die dort dargestellt werden.

Derzeit arbeite ich mit Curl, da fehlen mir aber leider die Bilder auf den Seiten so das nach einiger Zeit die Archivierten Daten unvollständig werden.

Ich kann mir vorstellen das so etwas schon jemand gebaut hat oder das es für solche Zwecke fertige Funktionen gibt. Es würde mir völlig reichen wenn Text, HTML und Bild gecached werden. Die Darstellung muss nicht 100%tig sein, wenn mal ein Wackler drin ist wäre es nicht schlimm.

Hat da vielleicht jemand einen Tipp für mich wie ich so etwas am besten hinbekommen kann?

Danke und Gruß
Manu

  1. Hallo Manu,

    Hat da vielleicht jemand einen Tipp für mich wie ich so etwas am besten hinbekommen kann?

    Da du auf cURL zugreifen kannst, kannst du doch auch sicherlich auf wget zugreifen. Das spiegelt dir bei Bedarf auch alle erreichbaren Dateien von einem ganzen Host - oder darüber hinaus. ;)

    Grüße

    Marc Reichelt || http://www.marcreichelt.de/

    --
    Linux is like a wigwam - no windows, no gates and an Apache inside!
    Selfcode: ie:{ fl:| br:> va:} ls:< fo:} rl:( n4:( ss:) de:> js:| ch:? sh:| mo:) zu:)
    1. Hi zusammen,

      Danke für eure Hilfe.

      wget! Ja das wär mal einen Versuch wert, da werde ich doch gleich mal rangehen und schauen was der Tag noch so bringt :)

      Danke & Gruß ...
      Manu

  2. Yerf!

    ich suche nach einer Möglichkeit von einer Webseite per Script ein komplettes Abbild zu ziehen, inkl. der Bilder die dort dargestellt werden.

    Hat da vielleicht jemand einen Tipp für mich wie ich so etwas am besten hinbekommen kann?

    Ich hab früher mal mit dem Shareware-Programm Teleport gearbeitet, hat eigentlich ganz gut funktioniert, solange man nicht über 65k an Links hinauskam...

    Hab aber leider keinen Link mehr, evtl. kann ja Google weiterhelfen.

    Gruß,

    Harlequin

  3. Hi!

    ich suche nach einer Möglichkeit von einer Webseite per Script ein komplettes Abbild zu ziehen, inkl. der Bilder die dort dargestellt werden.

    Da gibt es eine ganze Menge an guten Programmen.

    Derzeit arbeite ich mit Curl, da fehlen mir aber leider die Bilder auf den Seiten so das nach einiger Zeit die Archivierten Daten unvollständig werden.

    cURL kann aber doch auch Bilder runterladen.
    Ich weiß nicht, wieso das bei dir nicht funktioniert.
    Vermutlich machst du irgendwas falsch?
    Wie rufst du das Programm auf? Welche Parameter übergibst du?

    Ein weiteres gutes Programm ist "GNU wget". Das könntest du auch mal versuchen.

    Laut Titel bezieht sich dein Posting auf PHP.
    Deine Frage hat für mich aber nicht sichtbar erkenntlich mit PHP zu tun.
    Willst du mit PHP auf ein Programm (wie cURL oder wget) zugreifen, womit du Webseiten runterladen kannst?
    Oder willst du dir selbst ein Script schreiben?
    Du kannst das recht einfach selber machen, indem du ein Script schreibst, was eine Verbindung zu einem Server aufbaut und alle Files speichert:
    Einfach mit fsockopen() ein Socket öffnen und dann HTTP-Kommandos absetzen.

    Die Darstellung muss nicht 100%tig sein, wenn mal ein Wackler drin ist wäre es nicht schlimm.

    Das verstehe ich nicht.
    Welche Darstellung? Was für Wackler?
    Ich dachte, du wolltest alle Seiten so runterladen, wie sie sind..?

    Schöner Gruß,
    rob