Dokumentverwaltung und Suchmaschinen, HTTP-Status
Tom
- webserver
Hello,
ich habe da mal eine Frage an die HTTP-Status-Strategen.
Szenario:
Es gibt eine Directory-Struktur
--+--dokumente
| |
| +-- Vorschläge
| |
| +-- Aktivitäten
| |
| +-- Berichte
|
|
|
|
Es liegen z.B. PDF-Dateien in den Verzeichnissen, deren Ressourcenamen einfach per Apache Index angezeigt werden. Wenn ein Vorschlag im Diskussionsbereich angenommen wurde, wird er in die Aktivitäten verschoben. Wenn die Aktivität vorbei ist, wird das bearbeitete Dokument in die Berichte verschoben.
Nun indizieren die Suchmaschinen sinnvollerweise schon die Dokumente, wenn sie noch unter "Vorschläge" stehen.
Wie könnte ich jetzt erreichen, dass die Suchmaschine mitbekommt, dass eine Ressource von Vorschläge nach Aktivitäten verschoben wurde (der Name der Ressource nach der Pfadangabe bleibt gleich), aber der Browser diese Ressource nicht mehr zur Listung bekommt?
Kann man da mit einer zentralen Robots.txt etwas machen?
Liebe Grüße aus dem schönen Oberharz
Tom vom Berg
Hi,
Wie könnte ich jetzt erreichen, dass die Suchmaschine mitbekommt, dass eine Ressource von Vorschläge nach Aktivitäten verschoben wurde (der Name der Ressource nach der Pfadangabe bleibt gleich), aber der Browser diese Ressource nicht mehr zur Listung bekommt?
Wenn die Suchmaschinen die Directory-Listings selber auch lesen - dann bekommen sie es ja schon automatisch mit, dass ein Dokument mit dem selben Inhalt sich jetzt an anderer Adresse befindet.
Wenn du da nachhelfen willst - Redirect mit move permanently o.ä., dann müsstest du beim verschieben auch noch irgendwo vermerken, dass sich Ressource XY ursprünglich mal in Vorschläge befand. Wenn du nicht ständig anwachsende htaccess-Dateien dynamisch erzeugen willst, empfiehlt sich vielleicht, diese Daten entweder in einer Datenbank oder einer einer Scriptsprache zugänglichen Struktur (z.B. PHP-Array) vorzuhalten, und als 404-Handler bzw. FallbackResource für diese Verzeichnisse ein Script anzugeben, das sich dann in zutreffenden Fällen um die Ausgabe des entsprechenden HTTP-Status nebst Location-Header kümmert.
Kann man da mit einer zentralen Robots.txt etwas machen?
Nein, das ist m.E. die falsche Baustelle.
MfG ChrisB
hi,
Kann man da mit einer zentralen Robots.txt etwas machen?
Ja. robots.txt, steht drin:
User-agent: *
Sitemap: /sitemap.xml
Allow: /
Jetzt musst Du nur noch dafür sorgen, dass das sitemap.xml automatisch erstellt wird und so kriegen die Bots immer gleich alles mit.
Hotti
Hello,
Kann man da mit einer zentralen Robots.txt etwas machen?
Ja. robots.txt, steht drin:
User-agent: *
Sitemap: /sitemap.xml
Allow: /Jetzt musst Du nur noch dafür sorgen, dass das sitemap.xml automatisch erstellt wird und so kriegen die Bots immer gleich alles mit.
*Ups*
wie müsste die sitemap.xml bei meinem Anwendungsfall aussehen?
Liebe Grüße aus dem schönen Oberharz
Tom vom Berg