Robots.txt von Markus, 16.07.2003 01:14

Robots.txt

Markus 16.07.2003 01:14

webserver

Hi,

wenn man in der Robots.Txt folgendes definiert:

User-agent: *
Disallow: /ordnername/

dann sind doch alle Files in Verzeichnis "ordnername", sowie(!) alle Files in möglichen Unterordner von "ordnername" vor dem Spider geschützt oder nicht?

Der Spider darf also nicht die Inhalte von z.B. /ordnername/01 und /ordnername/02/abc auslesen.

Oder liege ich da falsch?

Guten Abend noch,
Markus

Beitrag melden

– Informationen zu den Bewertungsregeln

Robots.txt
Thorsten Steffen 16.07.2003 02:49

webserver
– Informationen zu den Bewertungsregeln
hio,

Der Spider darf also nicht die Inhalte von z.B. /ordnername/01 und /ordnername/02/abc auslesen.

Oder liege ich da falsch?

ein wenig ^^, du drückst einen Wunsch aus, dem der Spider entsprechen kann aber nicht muss. Ein seriöser Spider wird sich daran halten. Aber sicherlich nicht alle.

gl & hf

Thorsten
Beitrag melden

–
Informationen zu den Bewertungsregeln
Robots.txt
Thomas Luethi 16.07.2003 10:10

webserver
– Informationen zu den Bewertungsregeln
Hallo,

wenn man in der Robots.Txt folgendes definiert:

User-agent: *
Disallow: /ordnername/

dann sind doch alle Files in Verzeichnis "ordnername", sowie(!) alle Files in möglichen Unterordner von "ordnername" vor dem Spider geschützt oder nicht?

Theoretisch: Ja.
Vor anstaendigen Spidern.

Der Googlebot z.B. ist unanstaendig und geht trotzdem schauen,
was es dort so gibt.
Wenn er dann in den Dateien das META-Tag
<meta name='robots' content='index, follow'>
findet, dann denkt er sich: "Das ist was fuer mich!",
und schon sind die Seiten, die Du eigentlich
schuetzen wolltest, im Index drin und erscheinen bei den
Suchresultaten...

Der einzig "sichere" Weg, um Seiten vor Google zu schuetzen,
wenn man dieses META-Tag in den Seiten drin haben will,
ist ein Verzeichnisschutz mit .htaccess/.htpasswd
Die Benutzername/Kennwort-Kombination kannst Du dann
auf einer oeffentlichen Seite offen lesbar anzeigen,
damit Menschen es abtippen koennen und somit an die Inhalte kommen.

Vor Google koennte man sich natuerlich auch mit
dem entsprechenden META-Tag schuetzen:
<meta name='robots' content='noindex, nofollow'>
Behaupten sie jedenfalls auf
http://www.google.com/remove.html#exclude_pages
Um auch das "Cachen" zu verhindern, waere allenfalls
<meta name='robots' content='noindex, nofollow, noarchive'>
angebracht.

HTH, mfg
Thomas
Beitrag melden

–
Informationen zu den Bewertungsregeln
1. Robots.txt
  
  Markus 16.07.2003 22:19
  
  webserver
  – Informationen zu den Bewertungsregeln
  Hi Thomas,
  
  danke für die ausführliche Antwort.
  
  Bye,
  
  Markus
  
  Theoretisch: Ja.
  Vor anstaendigen Spidern.
  Beitrag melden
  
  –
  Informationen zu den Bewertungsregeln
  Übersicht
  
  alle Foren
  
  SELFHTML-Forum
  
  anmelden
  
  Benutzerkonto erstellen
  
  Beitrag im Thread-Baum

SELFHTML Forum - Ergänzung zur Dokumentation Übersicht

Markus: Robots.txt

Robots.txt

Robots.txt

Robots.txt

Robots.txt

Robots.txt