Offline-Version
Franki
- webserver
Hallo zusammen,
ich suche nach einer Möglichkeit, einen Webauftritt direkt vom Server auf CD zu bannen.
Das Ergebnis muß nicht absolut perfekt sein, eher zur Dokumentation (vorher/nachher bei Redesigns).
Nun ist es so, daß - DARAUF HABE ICH KEINEN EINFLUSS! - Parameter in den URLs mitgeschleppt werden, außerdem werden vom CMS im Quelltext immer wieder Dinge (Sessionstatistik) verändert.
wget bzw. httrack haben mir nicht geholfen, die Geräte drehen sich immer im Kreis.
Weiß jemand ein Tool, das das effizient schafft?
Schönen Tag,
Frank
Hallo Franki,
wget bzw. httrack haben mir nicht geholfen, die Geräte drehen sich immer im Kreis.
Weiß jemand ein Tool, das das effizient schafft?
Sind diese "wget" bzw. "httrack" Seitenofflinespeicher-Programme? Ein solches würde ich nämlich empfehlen (gibt es haufenweise).
Das lässt du deine Seite dann "lokal" abspeichern, brennst das ding auf CD-Rom und schon hast du dein statisches HTML :)
WauWau
Hallo WauWau,
wget bzw. httrack haben mir nicht geholfen, die Geräte drehen sich immer im Kreis.
Weiß jemand ein Tool, das das effizient schafft?Sind diese "wget" bzw. "httrack" Seitenofflinespeicher-Programme? Ein solches würde ich nämlich empfehlen (gibt es haufenweise).
erster Satz: ja
zweiter Satz: welche kennst Du noch?
Das lässt du deine Seite dann "lokal" abspeichern, brennst das ding auf CD-Rom und schon hast du dein statisches HTML :)
Ich glaube, Du irrst!
Bitte versuch das mal beispielsweise http://www.siemens.com oder http://www.quelle.de, um nur zwei Beispiele zu nennen.
Wenn Du nicht nach x Tagen entnervst abbrichst, läuft der Roboter weiter, ohne wirklich unterschiedliche Seiten zu indizieren.
Schönen Tag,
Frank
Hallo Franki,
zweiter Satz: welche kennst Du noch?
Ich bekomme nur regelmäßig Newsletter von so allen möglichen Freeware-Fritzies zugeschickt, da stehen diese Dinger sehr oft drin.
Google doch einfach mal.
Ich glaube, Du irrst!
Ich nicht. Ich hab zwar noch nie mit diesen teilen gearbeitet, aber denke, dass sie - ähnlich wie ein Suchmaschinenrobot - einfach eine Seite speichern, dann alle Links, eingebundene Bilder, usw. folgen und diese genauso speichern. Sofern sie nicht zur ursprüngsseite zurückkehren, um sich nach deren aktualität zu erkundigen, dürfte das kein problem sein...
WauWau
Hallo WauWau,
zweiter Satz: welche kennst Du noch?
Ich bekomme nur regelmäßig Newsletter von so allen möglichen Freeware-Fritzies zugeschickt, da stehen diese Dinger sehr oft drin.
Google doch einfach mal.
was meinst Du hätte ich getan.
Ich habe zwei - meiner Meinung nach - TopProgramme angeführt.
Aber diese kommen mit der Problematik nicht zurecht.
Ich glaube, Du irrst!
Ich nicht. Ich hab zwar noch nie mit diesen teilen gearbeitet, aber denke, dass sie - ähnlich wie ein Suchmaschinenrobot - einfach eine Seite speichern, dann alle Links, eingebundene Bilder, usw. folgen und diese genauso speichern. Sofern sie nicht zur ursprüngsseite zurückkehren, um sich nach deren aktualität zu erkundigen, dürfte das kein problem sein...
Google kann das auch nicht!
Wenn Du damit noch nicht gearbeitet hast, kannst Du doch nicht Wissen darüber bekunden, nur weil Du einen Newsletter bekommst...
Schönen Tag,
Frank
Hallo Franki,
Google kann das auch nicht!
Was ist es denn genau für eine Problematik? Er soll nie mit dem speichern fertig werden!? Wo steckt eigentlich das Problem?
WauWAu
Hallo WauWau,
Google kann das auch nicht!
Was ist es denn genau für eine Problematik? Er soll nie mit dem speichern fertig werden!? Wo steckt eigentlich das Problem?
ich habe zwei Beispielseiten genannt. Guck sie Dir >>genau<< an. Vielleicht kommst Du drauf!?
Schönen Tag,
Frank
Hallo Franki,
ich habe zwei Beispielseiten genannt. Guck sie Dir >>genau<< an. Vielleicht kommst Du drauf!?
....
Quelle-Seite:
- JavaScript-Fehler ;-)
- Dumme lange Namen für Seiten (http://www.quelle.de/is-bin/INTERSHOP.enfinity/eCS/Store/de/-/EUR/Q_Storefront-Start...)
scheinbar haben sie noch nie was von mod_rewrite gehört...
- und letztenendes kann man nix anderes an den Seitennamen als ...http://www.quelle.de/is-bin/INTERSHOP.enfinity/eCS/Store/de/-/EUR/Q_BrowseCatalog-Start;sid=x_sig8C8iLsiiIAtibGOl6P3---q0K0yuiI=?CategoryName=500047&Linktype=G... erkennen, also immer ein http://www.quelle.de/is-bin/INTERSHOP.enfinity/eCS/Store/de/-/EUR/ davor. Schlecht ;-)
Siemens-Seite:
- Servlets
- CMS oder vergleichbares:
...http://www.siemens.com/index.jsp?sdc_p=dpo1026937fcls5mnt4u&sdc_sid=11406487745...
Auch diese hier haben anscheinend nix von mod_rewrite gehört
Falls du darauf hinauswillst, dass diese Seiten möglicherweise die gleiche "Datei", z.B. bei deinem projekt sowas wie /cgi-bin/cms?blablablabalbalbla zugrundeliegen haben: Wenn dein Webseitenofflinespeichern-Programm so schlecht ist und Seiten anhand der Dateinamen da oben speichert, ist es wirklich schlecht. Es sollte eigentlich den Links folgen und die Seite so indezieren.
Ob man da jetzt alle Seiten unter
/seite23405983460349658.htm
oder
/bla/bli/blo/blu.php
oder
/www/apache/de/Euro/Hessen/Gesamt/Deutschland/-/bla/cms/cgi-bin/nuke/cms/perl.php?xylkdfösldkfgjlsdkf
oder sonstwas abspeichert, sollte eigentlich keine Rolle spielen.
WauWau
Hallo WauWau,
ein paar Dinge stimmen, die Du nennst.
Aber beschäftige Dich, wenn wir an der Stelle weitermachen wollen, bitte mal tiefer damit.
Es gibt viel tiefere Probleme und die liegen nicht nur am URL, egal ob nun jemand mod_rewrite nutzt oder nicht...
Schönen Tag,
Frank
Hallo Franki,
ein paar Dinge stimmen, die Du nennst.
ach wie schön....
Aber beschäftige Dich, wenn wir an der Stelle weitermachen wollen, bitte mal tiefer damit.
Wieso sollte ich? Ich weiß von deinem Problem nur, dass dein Offline-speicher-programm (...) nicht das macht, was du willst, genannt hast du mir als Beispiel zwei Webportale von größeren Firmen, die ein relativ ausgeklügeltes serverseitiges System nutzen, nicht etwa so ein ganz, ganz simples CMS oder so. Ich habe es in kleinen Bruchstücken in Punkto URL-aussehen angeschnitten, mehr auch nicht.
Ich finde, deine Postings klingen hier sehr von oben herab.
Es gibt viel tiefere Probleme und die liegen nicht nur am URL, egal ob nun jemand mod_rewrite nutzt oder nicht...
Tja, wenn du willst, dass man dir ggf. hilft, dann wäre einfach mal eine _Beschreibung_ sinnvoll.
WauWau
Hallo zusammen,
Wieso sollte ich? Ich weiß von deinem Problem nur, dass dein Offline-speicher-programm (...) nicht das macht, was du willst, genannt hast du mir als Beispiel zwei Webportale von größeren Firmen, die ein relativ ausgeklügeltes serverseitiges System nutzen, nicht etwa so ein ganz, ganz simples CMS oder so. Ich habe es in kleinen Bruchstücken in Punkto URL-aussehen angeschnitten, mehr auch nicht.
ob das immer so ausgeklügelt ist, weiß man nicht.
Ich finde, deine Postings klingen hier sehr von oben herab.
Ich glaube, er war nur sauer. Er hat das Problem zwar nur unscharf umrissen, aber es ist durchaus richtig, daß man beide Sites nicht so einfach runternudeln kann!
Und das liegt nicht an der Speicherung der Seite bzw. dem URL!
Es gibt viel tiefere Probleme und die liegen nicht nur am URL, egal ob nun jemand mod_rewrite nutzt oder nicht...
Tja, wenn du willst, dass man dir ggf. hilft, dann wäre einfach mal eine _Beschreibung_ sinnvoll.
Versuch es mal nachzuvollziehen! Ich denke, Frank hat das schon probiert. Es geht nicht! Jedenfalls nicht mit herkömmlichen Tools.
Frank, ich hätte eine Lösung.
Kannst mich anschreiben, wenn Du magst.
Gruß
Reiner
Hallo Reiner,
Wieso sollte ich? Ich weiß von deinem Problem nur, dass dein Offline-speicher-programm (...) nicht das macht, was du willst, genannt hast du mir als Beispiel zwei Webportale von größeren Firmen, die ein relativ ausgeklügeltes serverseitiges System nutzen, nicht etwa so ein ganz, ganz simples CMS oder so. Ich habe es in kleinen Bruchstücken in Punkto URL-aussehen angeschnitten, mehr auch nicht.
ob das immer so ausgeklügelt ist, weiß man nicht.
In Anbetracht der URL mögen sie des öfteren als solche erscheinen, sind es selbstverständlich aber genauso ... selten ;)
Auf Deutsch: Wenn man sich mal die Quelle-Seite anschaut, dann merkt man schnell, dass die Leute, die diese Seite gemacht haben, zwar meinetwegen evv. ein schönes Online-Einkauf-System zusammegebastelt haben, aber von benutzerfreundlichen Domains und sowas haben sie noch nie was gehört. Sowas wie
/blabla/Deutsch/Eur/-/bla/hier-steht-dann-die-eigentliche-adresse
ist wohl eindeutig zu lang und extrem benutzerunfreundlich. Siehe W3C-Empfehlungen (beim validieren von Seiten bei W3C kommt man da über den "Tip des Tages" hin ;).
Ich finde, deine Postings klingen hier sehr von oben herab.
Ich glaube, er war nur sauer.
Nunja, man muss nicht gleich so unhöflich werden, nur weil man sauer ist. Sein letztes Posting klang gerade mal so, als ob ich etwas von ihm gewollt hätte und er - als genervter helfender - entsprechend antwortet ^_°
Er hat das Problem zwar nur unscharf umrissen, aber es ist durchaus richtig, daß man beide Sites nicht so einfach runternudeln kann!
Und das liegt nicht an der Speicherung der Seite bzw. dem URL!
Nun, wie ich bereits gesagt habe, habe ich ein solches Download-Tool noch nie benutzt, also besser gesagt, ich habe so etwas noch nicht gebraucht. Entsprechend habe ich diesbezüglich auch keine Erfahrung damit (...) und - weswegen habe ich eigentlich gepostet? Eigentlich hätte ich das gerade mal lassen können. Wieder mal ein besonders unqualifiziertes Posting (bzw. mehrere) von WauWau ;-)
Es gibt viel tiefere Probleme und die liegen nicht nur am URL, egal ob nun jemand mod_rewrite nutzt oder nicht...
Tja, wenn du willst, dass man dir ggf. hilft, dann wäre einfach mal eine _Beschreibung_ sinnvoll.
Versuch es mal nachzuvollziehen! Ich denke, Frank hat das schon probiert. Es geht nicht! Jedenfalls nicht mit herkömmlichen Tools.
Ich erkenne immer noch nicht das ganz genaue Problem. Ich würde meinen, wenn diese Art Robot dahergeht, dann speichert es die Seite - meinetwegen unter 0001.htm. Vorher parst es sie und verändert links und sowas. Dann schaut sie sich von dem ersten Link an die nächste Seite an, usw... speichert es halt immer unter xxxx.htm, wobei eben die Links sowie andere Referenzen (bilder, css,...) alle umgeändert werden müssten.
Problematisch wird das nur, wenn Daten wirklich so flexibel dynamisch serverseitig angelegt sind, dass sie unmöglich mit den gleichen Aufruf-"Parametern" (GET,POST) vergleichbares ausgibt.
usw... ...
Oder habe ich das Problem immer noch nicht erkannt? ;-)
WauWau
Hallo WauWau,
Auf Deutsch: Wenn man sich mal die Quelle-Seite anschaut, dann merkt man schnell, dass die Leute, die diese Seite gemacht haben, zwar meinetwegen evv. ein schönes Online-Einkauf-System zusammegebastelt haben, aber von benutzerfreundlichen Domains und sowas haben sie noch nie was gehört. Sowas wie
/blabla/Deutsch/Eur/-/bla/hier-steht-dann-die-eigentliche-adresse
ist wohl eindeutig zu lang und extrem benutzerunfreundlich. Siehe W3C-Empfehlungen (beim validieren von Seiten bei W3C kommt man da über den "Tip des Tages" hin ;).
es ist bei genanntem Problem unwesentlich, wie der URL genau aussieht!
Ich finde, deine Postings klingen hier sehr von oben herab.
Ich glaube, er war nur sauer.Nunja, man muss nicht gleich so unhöflich werden, nur weil man sauer ist. Sein letztes Posting klang gerade mal so, als ob ich etwas von ihm gewollt hätte und er - als genervter helfender - entsprechend antwortet ^_°
Ich konnte es etwas verstehen...
Er hat das Problem zwar nur unscharf umrissen, aber es ist durchaus richtig, daß man beide Sites nicht so einfach runternudeln kann!
Und das liegt nicht an der Speicherung der Seite bzw. dem URL!Nun, wie ich bereits gesagt habe, habe ich ein solches Download-Tool noch nie benutzt, also besser gesagt, ich habe so etwas noch nicht gebraucht. Entsprechend habe ich diesbezüglich auch keine Erfahrung damit (...) und - weswegen habe ich eigentlich gepostet? Eigentlich hätte ich das gerade mal lassen können. Wieder mal ein besonders unqualifiziertes Posting (bzw. mehrere) von WauWau ;-)
Ja, ich will dem nicht direkt widersprechen.
Es gibt viel tiefere Probleme und die liegen nicht nur am URL, egal ob nun jemand mod_rewrite nutzt oder nicht...
Tja, wenn du willst, dass man dir ggf. hilft, dann wäre einfach mal eine _Beschreibung_ sinnvoll.
Versuch es mal nachzuvollziehen! Ich denke, Frank hat das schon probiert. Es geht nicht! Jedenfalls nicht mit herkömmlichen Tools.Ich erkenne immer noch nicht das ganz genaue Problem. Ich würde meinen, wenn diese Art Robot dahergeht, dann speichert es die Seite - meinetwegen unter 0001.htm. Vorher parst es sie und verändert links und sowas. Dann schaut sie sich von dem ersten Link an die nächste Seite an, usw... speichert es halt immer unter xxxx.htm, wobei eben die Links sowie andere Referenzen (bilder, css,...) alle umgeändert werden müssten.
Ich glaube, das ist wirklich nicht das Problem!
<Problembeschreibung>
Du bekommst, egal wie Du das speicherst, einen wahnsinnigen Overhead. Sprich: Du holst Dir 1000mal die selbe Seite, eben weil URL UND Quelltext sich dauernd ändern. Aus menschlicher Betrachtung (textlicher Inhalt) sind die Seiten aber gleich.
</Problembeschreibung>
Problematisch wird das nur, wenn Daten wirklich so flexibel dynamisch serverseitig angelegt sind, dass sie unmöglich mit den gleichen Aufruf-"Parametern" (GET,POST) vergleichbares ausgibt.
Das ist ein anderes Problem!
usw... ...
Oder habe ich das Problem immer noch nicht erkannt? ;-)
Ich glaube, mein Kasten umschreibt es am Besten.
Wget u.ä. Programme können das Problem NICHT lösen!
Probier es mal.
Ich habe ein eigenes System geschrieben, daß sowas sehr viel effizienter schafft. Wenn Du magst, kannst Du das mal mit Wget o.ä. machen. Ich mach das mit einer eigenen Methode und wir vergleichen, wieviel Daten (MB) jeder statisch vorliegen hat und wieviel Seiten das effektiv geworden sind.
Ich wäre gespannt!
Quelle.de wäre eine gute Übung.
Gruß,
Reiner
Hallo Reiner,
Ich konnte es etwas verstehen...
...
Ja, ich will dem nicht direkt widersprechen.
auch schön ;-)
<Problembeschreibung>
Du bekommst, egal wie Du das speicherst, einen wahnsinnigen Overhead. Sprich: Du holst Dir 1000mal die selbe Seite, eben weil URL UND Quelltext sich dauernd ändern. Aus menschlicher Betrachtung (textlicher Inhalt) sind die Seiten aber gleich.
</Problembeschreibung>
Danke! wundervolle Beschreibung, genau sowas hätte 12 Postings vorher von Franki kommen sollen ;-)
Nungut, das ist verständlich und klar. Die Seite ändert sich ja z.B. schon neu, wenn nur eine ganz simple serverseitige kleine Uhr eingebaut ist, die z.B. "Ladezeit 12:15 Uhr 55 Sec." anzeigt oder sowas ;-)
Nun, hier ist die Frage: weswegen handelt das Programm so dumm? ich meine, nachdem es seine Seite gespeichert hat, soll es sich auch speichern, dass es die Seite gespeichert hat, und brauch sie nicht nochmal besuchen.
Ich glaube, mein Kasten umschreibt es am Besten.
jo.
Wget u.ä. Programme können das Problem NICHT lösen!
Seltsam. Denn ich meine, sie sollten ja eine Seite einfach speichern und nicht nochmal schauen, ob sie die aktuelle version, haben, sonst kommen sie in einen Teufelskreis.
Ich habe ein eigenes System geschrieben, daß sowas sehr viel effizienter schafft. Wenn Du magst, kannst Du das mal mit Wget o.ä. machen. Ich mach das mit einer eigenen Methode und wir vergleichen, wieviel Daten (MB) jeder statisch vorliegen hat und wieviel Seiten das effektiv geworden sind.
"Wir"?
WauWau