Suchmaschinen und Datenbanken
Klaus Junge
0 Hanno
Hallo Leute,
hatte gerade eine vermutlich triviale aber für
mich neue Erkenntnis.
Begebenheit:
ich suchte ein Datenblatt eines älteren
elektronischen Bauteils. Habe die relevanten
Teile der Bezeichnung in verschiedenen Such-
maschinen eingegeben. Haufen Treffer bekommen,
aber nicht einen einzigen eines Herstellers!
War erstmal ratlos und hab' dann einige Hesteller
zufuß durchgesucht und sehr wohl was gefunden!?
Bei genauerem Hinschauen fiel mir dann auf, daß
diese Firmen ihre Informationen in Datenbanken
organisieren und dynamische Seiten generieren.
Nun ist es mir klar, Suchmaschinen durchsuchen
die Datenbanken natürlich nicht.
Da war doch noch was mit Spidersites oder so?
Klaus
Da war doch noch was mit Spidersites oder so?
Ja, aber dazu musst Du einem Spider bzw. einem Crawler (zwei Namen, ein Ding) ein entsprechendes Inhaltsverzeichnis mit Links auf alle dynamische Seiten aus der Datenbank zum Fraß vorwerfen. Formulare können die Dinger nicht von selbst ausfüllen.
Ganz gerissene Site-Besitzer könnten anhand von USER_AGENT prüfen, ob sie von einem Crawler besucht werden, und ihm statt eines Formulars dieses Inhaltsverzeichnis anbieten.
Das ärgerliche dabei ist dann allerdings, daß viele Crawler URLs gar nicht erst aufrufen, wenn diese Parameter für eine GET-Query mit ? übergeben.
Wenn Du also ein Gästebuch hast, dessen zweite Seite mit /cgi-bin/gaestebuch.cgi?seite=2 angezeigt wird, dann ruft der Crawler diese dynamische Seite nicht auf.
Es hängt wohl damit zusammen, daß die Programmierer der Suchmaschinen (zu Recht) Angst vor dynamisch generierten Sites haben, bei denen es zu jeder Seite durch diverse Parameter-Variationen ständig identische Inhalte mit scheinbar völlig verschiedenen URLs gibt.
(Mir hat mal jemand was von seiner interaktiven FAQ-Seite erzählt, bei der zu Beginn nur die Überschriften zu sehen waren. Durch Klick auf die Überschrift konnte man eine Antwort aus- und wieder ein"klappen". Und zwar jede Antwort einzeln, es gab dadurch hunderte von Varianten der URL-Parameter.)
Aber zurück zum Thema.
Man kann sich dadurch helfen, daß man die Parameter nicht als GET-Query kodiert, sondern es im übergebenen Pfad erledigt.
So erhält zum Beispiel hier
http://meine.site.de/cgi-bin/trick17.cgi/wert1/2/wert3/4
das Programm trick17.cgi die Variable PATH_INFO = "/wert1/2/wert3/4" übergeben, deren Inhalt man extrahieren muß und schon weiß man, daß wert1=2 und wert3=4 gemeint ist...
Die andere Möglichkeit ist mod_rewrite in Apache, wo man intern im Server aus einer URL wie
http://meine.site.de/wert1.2;wert3.4/trick17.html
"ganz einfach"
http://meine.site.de/cgi-bin/trick17.cgi?wert1=2&wert3=4
machen kann.
Schön sind beide Möglichkeiten nicht.