Alexander (HH): Welche Dateien gehören zu einem Webauftritt?

Beitrag lesen

Moin Moin!

Wie du siehst ist mir der Sinn deiner Frage noch nicht ganz klar.

ich meine nicht die "Seiten", sondern die zusätzlichen "Dateien" wie z.B. robots.txt und sitemap.xml etc.

Das beantwortet die Frage nach dem Sinn auch nicht.

Man kann einen Web-Auftritt komplett ohne Dateien hinlegen, z.B. indem der Webserver sich sämtliche Informationen aus einer Datenbank zieht (die z.B. bei Oracle durchaus auf einem Raw Device liegen kann). Aus URLs auf Dateien zu schließen ist nicht möglich, nicht einmal teilweise. Beispiel:

Eine URL aus einem mittlerweile abgeschlossenen Projekt lautet http://www.sag-ich-nicht.exampe.com/run/Image/view.do/42/uuHzWCM3DND6dtNo24JlQN8npIvXUjhzguzt68/small.png. Es gibt keine Datei namens small.png, es gibt keine Datei namens view.do, und Dateien oder Verzeichnisse namens 42 oder uuHzWCM3DND6dtNo24JlQN8npIvXUjhzguzt68 gibt es schon mal gar nicht. Sobald eine URL auf diesem Server mit "/run/" anfängt, wird der Request an einen Server-Prozess außerhalb des Webservers (mit einem völlig anderen Namen) weitergegeben, der sich aus der restlichen URL zusammenreimt, ob und was er aus der Datenbank fischt.

Es gibt einige Konventionen, die Resourcen für einen bestimmten Zweck unter einer konstanten URL verfügbar machen. Keine dieser Resourcen ist wirklich notwendig.

/robots.txt gehört dazu, wird aber nicht von jedem Robot beachtet. Die guten beachten den Inhalt dieser Resource, die bösen sch***en drauf.

sitemal.xml hat sich Google ausgedacht, ist oft als /sitemap.xml verfügbar, kann aber unter jeder beliebigen URL stehen, wenn man die URL in /robots.txt angibt.

/favicon.ico hat sich Microsoft ausgedacht, kann aber per META-Tag auf beliebige andere URLs umgebogen werden, z.B. auf /favicon.gif oder /img/favicon.gif.

Die Resourcen für Kontakt, Impressum & Co. kannst Du nennen, wie Du willst, die müssen nur für auf blöd schaltende Juristen zu finden sein. Um sicher zu gehen, packt man die entsprechenden Links auf jede Seite der Site, und zwar so, dass sie ohne und mit JS, ohne und mit CSS, ohne und mit Flash zu sehen und zu erreichen sind, und sorgt für einen entsprechenden Link-Text.

All diese Resourcen können Dateien sein, die ein Webserver ohne weitere Aktionen ausliefert, können aber auch komplett dynamisch generiert werden. Gerade bei der Sitemap bietet sich das an, aber auch /robots.txt wird gerne mal dynamisch generiert.

Alexander

--
Today I will gladly share my knowledge and experience, for there are no sweeter words than "I told you so".