crawler für Dokumente auf einer Webseite von Jörg Reinholz, 05.11.2014 12:17

crawler für Dokumente auf einer Webseite

droomdre 04.11.2014 10:12

software

Hi folks,

ich suche nach einer Lösung, die ich einfach installieren kann und womit ich alle PDFs herausfinden kann, die aktuell auf meiner Seite sichtbar sind. Mir reicht eine Auflistung oder wenn es anders nicht geht die Dateien selbst.
Kennt jdn ein Tool?

Mit freundlichen Grüßen.
Droomdre

Beitrag melden

– Informationen zu den Bewertungsregeln

crawler für Dokumente auf einer Webseite
Mitleser 04.11.2014 10:32

software
– Informationen zu den Bewertungsregeln
ich suche nach einer Lösung, die ich einfach installieren kann und womit ich alle PDFs herausfinden kann, die aktuell auf meiner Seite sichtbar sind. Mir reicht eine Auflistung oder wenn es anders nicht geht die Dateien selbst.
Kennt jdn ein Tool?

Mit wget sollte das machbar sein, die passenden Paramter aus dem Manual zusammenbauen.
Beitrag melden

–
Informationen zu den Bewertungsregeln
1. crawler für Dokumente auf einer Webseite
  
  Jörg Reinholz 04.11.2014 13:05
  
  software
  – Informationen zu den Bewertungsregeln
  ich suche nach einer Lösung, die ich einfach installieren kann und womit ich alle PDFs herausfinden kann, die aktuell auf meiner Seite sichtbar sind. Mir reicht eine Auflistung oder wenn es anders nicht geht die Dateien selbst.
  Kennt jdn ein Tool?
  
  Mit wget sollte das machbar sein, die passenden Paramter aus dem Manual zusammenbauen.
  
  Richtig!
  
  wget -r --spider http://example.org 2>&1 | grep -e '.pdf$'
  
  Für Windows:
  
  [http://sourceforge.net/projects/unxutils/files/latest/download/@title=wget, grep und anderes nützliche] - aus der UnxUtils.zip entpacken und mit Admin-Rechten alle Dateien aus den im Zip-File enhaltenen Ordnern (\bin und \usr\local\wbin) mit der Endung ".exe" direkt in einen Ordner im Suchpfad (z.B. C:\windows) verschieben.
  
  Ich hoffe, das reicht für "einfach installieren".
  
  Jörg Reinholz
  Beitrag melden
  
  –
  Informationen zu den Bewertungsregeln
  Übersicht
  
  alle Foren
  
  SELFHTML-Forum
  
  anmelden
  
  Benutzerkonto erstellen
  
  Beitrag im Thread-Baum
  1. crawler für Dokumente auf einer Webseite
    
    droomdre 05.11.2014 11:45
    
    software
    
    – Informationen zu den Bewertungsregeln
    ich suche nach einer Lösung, die ich einfach installieren kann und womit ich alle PDFs herausfinden kann, die aktuell auf meiner Seite sichtbar sind. Mir reicht eine Auflistung oder wenn es anders nicht geht die Dateien selbst.
    Kennt jdn ein Tool?
    
    Mit wget sollte das machbar sein, die passenden Paramter aus dem Manual zusammenbauen.
    
    Richtig!
    
    wget -r --spider http://example.org 2>&1 | grep -e '.pdf$'
    
    Für Windows:
    
    [http://sourceforge.net/projects/unxutils/files/latest/download/@title=wget, grep und anderes nützliche] - aus der UnxUtils.zip entpacken und mit Admin-Rechten alle Dateien aus den im Zip-File enhaltenen Ordnern (\bin und \usr\local\wbin) mit der Endung ".exe" direkt in einen Ordner im Suchpfad (z.B. C:\windows) verschieben.
    
    Ich hoffe, das reicht für "einfach installieren".
    
    Jörg Reinholz
    
    vielen Dank beide und Reinholz für den Code. ich probiere es unter Linux und bekomme nichts zurück. Die Ausführung beendet sofort nach Beginn, als hätte er nichts gefunden. Auf der Webseite sind aber einige PDFs, die er finden sollte.
    MfG.
    Beitrag melden
    
    –
    Informationen zu den Bewertungsregeln
    
    Übersicht
    
    alle Foren
    
    SELFHTML-Forum
    
    anmelden
    
    Benutzerkonto erstellen
    
    Beitrag im Thread-Baum
    1. crawler für Dokumente auf einer Webseite
      
      Jörg Reinholz 05.11.2014 12:17
      
      software
      
      – Informationen zu den Bewertungsregeln
      
      vielen Dank beide und Reinholz für den Code. ich probiere es unter Linux und bekomme nichts zurück.
      
      Bei mir geht es aber prima. Alle irgendwo auf der Seite verlinkten(!) PDFs werden gefunden.
      
      Möglicherweise solltest Du zunächst mal prüfen, ob wget eventuell durch eine robots.txt ausgeschlossen ist und im Manual nachlesen, wie man wget dazu überredet, diese zu ignorieren.
      
      Die Ausführung beendet sofort nach Beginn, als hätte er nichts gefunden. Auf der Webseite sind aber einige PDFs, die er finden sollte.
      
      Eben deshalb. Ansonsten wäre es nützlich die Adresse genannt zu bekommen. Falls Du das nicht willst:
      
      wget -d --delete-after http://deineDomain
      
      "Sofort beendet" - Darüber hinaus könnte ergo ein Typo verantwortlich sein. Lass doch mal den Pipe zu wget weg und schau nach, was kommt.
      
      Jörg Reinholz
      
      Beitrag melden
      
      –
      Informationen zu den Bewertungsregeln
      
      Übersicht
      
      alle Foren
      
      SELFHTML-Forum
      
      anmelden
      
      Benutzerkonto erstellen
      
      Beitrag im Thread-Baum
      1. crawler für Dokumente auf einer Webseite
        
        Jörg Reinholz 05.11.2014 12:31
        
        software
        
        – Informationen zu den Bewertungsregeln
        
        Lass doch mal den Pipe zu wget weg und schau nach, was kommt.
        
        Lass doch mal den Pipe zu grep weg und schau nach, was kommt.
        
        Jörg Reinholz
        
        Beitrag melden
        
        –
        Informationen zu den Bewertungsregeln
        
        Übersicht
        
        alle Foren
        
        SELFHTML-Forum
        
        anmelden
        
        Benutzerkonto erstellen
        
        Beitrag im Thread-Baum
        
        crawler für Dokumente auf einer Webseite
        
        droomdre 05.11.2014 13:40
        
        software
        
        – Informationen zu den Bewertungsregeln
        
        Lass doch mal den Pipe zu wget weg und schau nach, was kommt.
        
        Lass doch mal den Pipe zu grep weg und schau nach, was kommt.
        
        Jörg Reinholz
        
        Ich bekomme das:
        wget -r --spider http://www.klinikamrosengarten.de/ 2>&1
        --13:39:17--  http://www.klinikamrosengarten.de/
                   => `www.klinikamrosengarten.de/index.html'
        Resolving www.klinikamrosengarten.de... 46.30.58.110
        Connecting to www.klinikamrosengarten.de|46.30.58.110|:80... connected.
        HTTP request sent, awaiting response... 200 OK
        Length: unspecified [text/html]
        200 OK
        
        www.klinikamrosengarten.de/index.html: No such file or directory
        
        FINISHED --13:39:17--
        Downloaded: 0 bytes in 0 files
        
        Die Seite ist in php und durch simulate statics wird ein html am Ende eingefügt.
        
        Beitrag melden
        
        –
        Informationen zu den Bewertungsregeln
        
        Übersicht
        
        alle Foren
        
        SELFHTML-Forum
        
        anmelden
        
        Benutzerkonto erstellen
        
        Beitrag im Thread-Baum
        
        crawler für Dokumente auf einer Webseite
        
        Jörg Reinholz 05.11.2014 18:09
        
        software
        
        – Informationen zu den Bewertungsregeln
        
        Die Seite ist in php und durch simulate statics wird ein html am Ende eingefügt.
        
        Wie auch immer. Bei mir ging das gerade eben und machte die erwarteten Ausgaben.
        
        Es werden am Ende zwei PDF's ohne Datum gelistet. Das sind die, die zwar verlinkt, aber nicht abrufbar waren.
        
        Ich weiß jetzt nicht, was Dein "simulate statics" treibt - aber in der Theorie sollte das wget egal sein. In meiner wgetrc finden sich aber zwei veränderte Einstellungen:
        
        robots = off user-agent = Mozilla/5.0 (Windows rv:32.0) Gecko/20100101 Firefox/32.0
        
        Als Spider folgt der einfach jedem Link in der abgeholten Ressource, Welche auf den gleichen Webhost verweist, versucht die Ressource abzuholen und darin Links zum gleichen Webhost zu finden, die er dann versucht abzuholen und darin Links zum gleichen Webhost  finden, die er dann versucht abzuholen und darin Links zum gleichen Webhost zu finden ...
        
        Jörg Reinholz
        
        Beitrag melden
        
        –
        Informationen zu den Bewertungsregeln
        
        Übersicht
        
        alle Foren
        
        SELFHTML-Forum
        
        anmelden
        
        Benutzerkonto erstellen
        
        Beitrag im Thread-Baum
        
        crawler für Dokumente auf einer Webseite
        
        droomdre 06.11.2014 13:08
        
        software
        
        – Informationen zu den Bewertungsregeln
        
        Die Seite ist in php und durch simulate statics wird ein html am Ende eingefügt.
        
        Wie auch immer. Bei mir ging das gerade eben und machte die erwarteten Ausgaben.
        
        Es werden am Ende zwei PDF's ohne Datum gelistet. Das sind die, die zwar verlinkt, aber nicht abrufbar waren.
        
        Ich weiß jetzt nicht, was Dein "simulate statics" treibt - aber in der Theorie sollte das wget egal sein. In meiner wgetrc finden sich aber zwei veränderte Einstellungen:
        
        robots = off
        user-agent = Mozilla/5.0 (Windows rv:32.0) Gecko/20100101 Firefox/32.0
        
        > > Als Spider folgt der einfach jedem Link in der abgeholten Ressource, Welche auf den gleichen Webhost verweist, versucht die Ressource abzuholen und darin Links zum gleichen Webhost zu finden, die er dann versucht abzuholen und darin Links zum gleichen Webhost  finden, die er dann versucht abzuholen und darin Links zum gleichen Webhost zu finden ... > > > Jörg Reinholz > > > Hi Jörg, schon mal vielen Dank für deine Hilfe. Funktioniert bei dir diesen Aufruf: wget -r --spider http://www.klinikamrosengarten.de/ 2>&1 Arbeitest du auch mit Linux? Wie verändere ich meine Einstellungen für wgetrc? vielen Dank. Droomdre
        
        Beitrag melden
        
        –
        Informationen zu den Bewertungsregeln
        
        Übersicht
        
        alle Foren
        
        SELFHTML-Forum
        
        anmelden
        
        Benutzerkonto erstellen
        
        Beitrag im Thread-Baum
        
        crawler für Dokumente auf einer Webseite
        
        Jörg Reinholz 06.11.2014 19:09
        
        software
        
        – Informationen zu den Bewertungsregeln
        
        Funktioniert bei dir diesen Aufruf:
        wget -r --spider http://www.klinikamrosengarten.de/ 2>&1
        
        Ja.
        
        Arbeitest du auch mit Linux? Wie verändere ich meine Einstellungen für wgetrc?
        
        Da gibt es zwei Möglichkeiten:
        
        /etc/wgetrc (Nur Mit root-Rechten zu bearbeiten, gilt für alle Benutzer, die es nicht "überladen")
        
        oder
        
        $HOME/.wgetrc (Lies: "PunktWgetrc")  im Heimatverzeichnis des Benutzers für den das gelten soll. Bearbeiten mit gültigen Benutzerrechten.
        
        Nimm den Editor Deiner Wahl. Im Übrigen hätte man wget auch weiter geholfen, das liefert ganz unten:
        
        FILES        /etc/wgetrc            Default location of the global startup file.        .wgetrc            User startup file.
        
        aber nicht diese kleine, toll funktionierende Erweiterung: Setzt man mit
        
        ~ export WGETRC=/tmp/tolleDatei
        
        dann muss oder kann /tmp/tolleDatei bearbeitet werden, Die ~/.getrc wird dann nicht mehr beachtet. Das wüsstest Du aber wenn Du daran gefummelt hättest. Beachte das also nicht weiter.
        
        Jörg Reinholz
        
        Beitrag melden
        
        –
        Informationen zu den Bewertungsregeln
        
        Übersicht
        
        alle Foren
        
        SELFHTML-Forum
        
        anmelden
        
        Benutzerkonto erstellen
        
        Beitrag im Thread-Baum

SELFHTML Forum - Ergänzung zur Dokumentation Übersicht

droomdre: crawler für Dokumente auf einer Webseite

crawler für Dokumente auf einer Webseite

crawler für Dokumente auf einer Webseite

crawler für Dokumente auf einer Webseite

crawler für Dokumente auf einer Webseite

crawler für Dokumente auf einer Webseite

crawler für Dokumente auf einer Webseite

crawler für Dokumente auf einer Webseite

crawler für Dokumente auf einer Webseite

crawler für Dokumente auf einer Webseite

crawler für Dokumente auf einer Webseite

crawler für Dokumente auf einer Webseite