crawler für Dokumente auf einer Webseite von Jörg Reinholz, 04.11.2014 13:05

crawler für Dokumente auf einer Webseite

Jörg Reinholz 04.11.2014 13:05

software

ich suche nach einer Lösung, die ich einfach installieren kann und womit ich alle PDFs herausfinden kann, die aktuell auf meiner Seite sichtbar sind. Mir reicht eine Auflistung oder wenn es anders nicht geht die Dateien selbst.
Kennt jdn ein Tool?

Mit wget sollte das machbar sein, die passenden Paramter aus dem Manual zusammenbauen.

Richtig!

wget -r --spider http://example.org 2>&1 | grep -e '.pdf$'

Für Windows:

[http://sourceforge.net/projects/unxutils/files/latest/download/@title=wget, grep und anderes nützliche] - aus der UnxUtils.zip entpacken und mit Admin-Rechten alle Dateien aus den im Zip-File enhaltenen Ordnern (\bin und \usr\local\wbin) mit der Endung ".exe" direkt in einen Ordner im Suchpfad (z.B. C:\windows) verschieben.

Ich hoffe, das reicht für "einfach installieren".

Jörg Reinholz

Beitrag melden

– Informationen zu den Bewertungsregeln

SELFHTML Forum - Ergänzung zur Dokumentation Übersicht

Jörg Reinholz: crawler für Dokumente auf einer Webseite

Beitrag lesen

crawler für Dokumente auf einer Webseite

crawler für Dokumente auf einer Webseite