Andreas Korthaus: 37 GB Traffic an einem Tag?

Beitrag lesen

Hi!

Und wenn du dich per Mail mit dem Hostmaster in Verbindung setzt, warum die denn das dreißigfache des normalen Traffics verursachen müssen, dann kommt als Antwort, dass man für irgendein Projekt eine neue, hochentwickelten Suchmaschine mit Spider basteln wird.

Zitat: "High-end Technologie für Internet Suchmaschinen" ;-)

2 Probleme gab es hierbei.

1. Die Meta-Angabe im Head des Forums:

<meta name="robots" content="noindex,noarchive">

da steht nicht "nofollow" oder "none", das sollte man vielleicht ändern da zumindest _dieser_ Spider sich wohl dran gehalten hätte.

2. Die vielen Requests habe ich bis jetzt noch nicht 100%ig nachvollziehen können, aber an die Requests ist meist sowas wie %234234 angehängt, halt sowas:

GET /?t=47698&m=260444%234234

Und beim genaueren hinsehen(ich habe alle Requests des Servers mit einem PHP-Script untersucht - es gab tatsächlich keine 2 identischen Request-Strings von besagter Domain, eben wegen diesen %234234, dafür wurden die meisten Seiten mehrere 100 mal angefordert, halt immer mit anderer %-Nummer)

Wenn ich das richtig verstanden habe dann liegt es an den <img src="/src/xopen.gif" border="0" alt="">

http://forum.de.selfhtml.org/?t=47713&a=close#t47713

sowas gab es sehr oft als Referer. Aber so 100%ig sicher bin ich da noch nicht da ich nicht an solche Links komme, sah ein bisschen so aus als hätte der crawler  alle möglichen Threads geschlossen, und dann jedesmal ne andere ID hinter den eigentlich selben Links gehabt und die dann neu abgefragt. Naja, dazu kommt noch das das Forum ja nicht inaktiv bleibt und sich die Recourcen so auch zusätzlich verändern, noch während er aktiv ist.

Ich würde unbedingt folgendes auf alle Seiten des Forums schreiben:

<meta name="robots" content="nofollow,noindex,noarchive">

oder

<meta name="robots" content="none">

Das schadet sicher nicht! Mit einer robots.txt geht es ja eigentlich nicht, da wir ja die Unterseiten durchsuchbar machen wollen, und da es kein allow gibt kann man nicht sagen disallow / und allow /archiv/ (obwohl es ja manche wie google könnten).
Ein anderer Weg wäre noch das Selfarchiv auf eine eigene Subdomain zu legen das fänd ich gar nicht so schlecht, denn dann hätte man klar den dynamischen Teil vom statischen abgekapselt, dann könnte man eine entsprechende robots.txt verwenden, und vielleicht sogar noch andere Dinge, keine Ahnung. Oder man verwendet einfach beides, für die Suchmaschinen die subdomain selfarchiv.teamone.de und das ist dasselbe Verzeichnis wie forum.de.selfhtml.org/archiv/, nur ohne robots.txt.

Naja, das nur so als Gedanken, die meta-Angaben sollten doch eigentlich dasselbe erreichen, denn dazu sind sie da, und alles könnte so bleiben wie es ist.

Viele Grüße
Andreas

0 44

Verbreitung von Schriftarten, Browsern, etc. im Internet?

Elessar
  • sonstiges
  1. 0
    Johannes Zeller
    1. 0

      37 GB Traffic an einem Tag?

      Stefan Einspender
      • zu diesem forum
      1. 0
        MudGuard
        1. 0
          Stefan Einspender
        2. 0
          Andreas Korthaus
      2. 0
        Sven Rautenberg
        1. 0
          Stefan Einspender
          1. 0
            Ole
          2. 0
            Thomas J.S.
          3. 0
            Frank Schönmann
        2. 0
          Andreas Korthaus
          1. 0
            Stefan Einspender
          2. 0
            MudGuard
            1. 0
              Andreas Korthaus
              1. 0
                Andreas Korthaus
                1. 0
                  Thomas J.S.
                  1. 0
                    Michael Schröpl
                    1. 0

                      Schutz gegen 'Crawler-Attacken'

                      Andreas Korthaus
                      1. 0
                        Michael Schröpl
                        1. 0
                          Andreas Korthaus
                          1. 0
                            Andres Freund
                            1. 0
                              Michael Schröpl
                              1. 0
                                Andreas Korthaus
                              2. 0
                                Andres Freund
                                1. 0
                                  Michael Schröpl
                          2. 0
                            Michael Schröpl
      3. 0
        Andreas Korthaus
        1. 0
          Stefan Einspender
          1. 0
            Stefan Einspender
          2. 0
            Christian Seiler
            1. 0
              Stefan Einspender
              1. 0
                Christian Seiler
                1. 0
                  Stefan Einspender
                2. 0
                  Michael Schröpl
      4. 0
        MudGuard
  2. 0
    Christian Seiler
    1. 0
      Thomas J.S.
      1. 0
        Christian Seiler
        1. 0
          Thomas J.S.
          1. 0
            Johannes Zeller
            1. 0
              Thomas J.S.
          2. 0
            Johannes Zeller
            1. 0
              Tim Tepaße