Guten Morgen,
für ein größeres Projekt muss ich einen Crawler in Python Programmieren. Dieser Crawler hat die Aufgaben statische HTML Seiten aus dem Internet zu landen.
Die einmal geladenen Seiten sollen regelmäßig auf "noch erreichbar" und "noch aktuell" hin überprüft werden. Um nicht unnötigen Trafic zu verursachen, will ich für das überprüfen die Request-Methode "HEAD" gebrauchen.
Für den Teil "noch erreichbar" wird das ausreichend sein. Was ist aber mit dem Teil "noch aktuell"? Erste Tests haben ergeben das nicht alle Server im HEAD ein "Last-Modified" haben. Leider weiß ich nicht ob das fehlen dieser HEAD Angaben die Regel ist. Wenn dem so währe, welche Alternativen haben ich dann?
Mit freundlichen Grüßen
Albert