Tom: Dokumentverwaltung und Suchmaschinen, HTTP-Status

Hello,

ich habe da mal eine Frage an die HTTP-Status-Strategen.

Szenario:
Es gibt eine Directory-Struktur

--+--dokumente
  |     |
  |     +-- Vorschläge
  |     |
  |     +-- Aktivitäten
  |     |
  |     +-- Berichte
  |
  |
  |
  |

Es liegen z.B. PDF-Dateien in den Verzeichnissen, deren Ressourcenamen einfach per Apache Index angezeigt werden. Wenn ein Vorschlag im Diskussionsbereich angenommen wurde, wird er in die Aktivitäten verschoben. Wenn die Aktivität vorbei ist, wird das bearbeitete Dokument in die Berichte verschoben.

Nun indizieren die Suchmaschinen sinnvollerweise schon die Dokumente, wenn sie noch unter "Vorschläge" stehen.

Wie könnte ich jetzt erreichen, dass die Suchmaschine mitbekommt, dass eine Ressource von Vorschläge nach Aktivitäten verschoben wurde (der Name der Ressource nach der Pfadangabe bleibt gleich), aber der Browser diese Ressource nicht mehr zur Listung bekommt?

Kann man da mit einer zentralen Robots.txt etwas machen?

Liebe Grüße aus dem schönen Oberharz

Tom vom Berg

--
 ☻_
/▌
/ \ Nur selber lernen macht schlau
http://bergpost.annerschbarrich.de
  1. Hi,

    Wie könnte ich jetzt erreichen, dass die Suchmaschine mitbekommt, dass eine Ressource von Vorschläge nach Aktivitäten verschoben wurde (der Name der Ressource nach der Pfadangabe bleibt gleich), aber der Browser diese Ressource nicht mehr zur Listung bekommt?

    Wenn die Suchmaschinen die Directory-Listings selber auch lesen - dann bekommen sie es ja schon automatisch mit, dass ein Dokument mit dem selben Inhalt sich jetzt an anderer Adresse befindet.

    Wenn du da nachhelfen willst - Redirect mit move permanently o.ä., dann müsstest du beim verschieben auch noch irgendwo vermerken, dass sich Ressource XY ursprünglich mal in Vorschläge befand. Wenn du nicht ständig anwachsende htaccess-Dateien dynamisch erzeugen willst, empfiehlt sich vielleicht, diese Daten entweder in einer Datenbank oder einer einer Scriptsprache zugänglichen Struktur (z.B. PHP-Array) vorzuhalten, und als 404-Handler bzw. FallbackResource für diese Verzeichnisse ein Script anzugeben, das sich dann in zutreffenden Fällen um die Ausgabe des entsprechenden HTTP-Status nebst Location-Header kümmert.

    Kann man da mit einer zentralen Robots.txt etwas machen?

    Nein, das ist m.E. die falsche Baustelle.

    MfG ChrisB

    --
    RGB is totally confusing - I mean, at least #C0FFEE should be brown, right?
  2. hi,

    Kann man da mit einer zentralen Robots.txt etwas machen?

    Ja. robots.txt, steht drin:

    User-agent: *
    Sitemap: /sitemap.xml
    Allow: /

    Jetzt musst Du nur noch dafür sorgen, dass das sitemap.xml automatisch erstellt wird und so kriegen die Bots immer gleich alles mit.

    Hotti

    1. Hello,

      Kann man da mit einer zentralen Robots.txt etwas machen?

      Ja. robots.txt, steht drin:

      User-agent: *
      Sitemap: /sitemap.xml
      Allow: /

      Jetzt musst Du nur noch dafür sorgen, dass das sitemap.xml automatisch erstellt wird und so kriegen die Bots immer gleich alles mit.

      *Ups*
      wie müsste die sitemap.xml bei meinem Anwendungsfall aussehen?

      Liebe Grüße aus dem schönen Oberharz

      Tom vom Berg

      --
       ☻_
      /▌
      / \ Nur selber lernen macht schlau
      http://bergpost.annerschbarrich.de
      1. hi Tom,

        wie müsste die sitemap.xml bei meinem Anwendungsfall aussehen?

        guckst Du hier

        Hotti