tempo74: Doppelter Content mit htaccess unterbinden

Hallo Leute!

Ich habe auf meiner Webseite ein Problem mit dem doppelten Content.

Und zwar ist ein und dieselbe Seite über:

www.meineseite.at
www.meineseite.at/de
www.meineseite.at/de/index.html

erreichbar.

Da es eine php-Seite ist habe ich über htaccess die Urls bereits Suchmaschienfreundlich gestaltet.
Wie schaffe ich es jedoch, über die htaccess den spidern zu sagen, das sie nur die www.meineseite.at spidern sollen, damit ich keinen duplicate Content habe?

Kann mir jemand einen Codeschnipsel oder einen entsprechenden Link zukommen lassen.
Ich wäre sehr dankbar!!!

tempo74

  1. Hi,

    Wie schaffe ich es jedoch, über die htaccess den spidern zu sagen, das sie nur die www.meineseite.at spidern sollen, damit ich keinen duplicate Content habe?

    es geht einfacher.

    Cheatah

    --
    X-Self-Code: sh:( fo:} ch:~ rl:| br:> n4:& ie:% mo:) va:) de:] zu:) fl:{ ss:) ls:~ js:|
    X-Self-Code-Url: http://emmanuel.dammerer.at/selfcode.html
    X-Will-Answer-Email: No
    X-Please-Search-Archive-First: Absolutely Yes
    1. Und die anderen Suchmaschinen?

      1. So jetzt bin ich genau so gescheit wie vorhin.
        Wichtig ist schon das es für alle Suchmaschinen gilt. Somit ist diese <link rel=> Lösung wohl nicht das Beste.

        Ich würde es auch mit einer robots.txt Datei machen, jedoch weiss ich sowie mit htaccess auch nicht wie ich das bewerkstellige.

        Bitte um Hilfe
        tempo74

        1. Ich würde es auch mit einer robots.txt Datei machen, jedoch weiss ich sowie mit htaccess auch nicht wie ich das bewerkstellige.

          Hast du dich denn informiert? Das ist doch nun wirklich nicht schwer.

          http://de.selfhtml.org/diverses/robots.htm

          1. Also mit der robots.txt eine Datei zu verbieten schaffe ich:
            Disallow: /de/index.html
            Hier wird dann ja wohl nur die Datei nicht indiziert und nicht das Verzeichnis.

            Wie mache ich jedoch, das
            /de auf www.meineseite.at zeigt und nicht das Verzeichnis /de verboten wird?

            Danke für die Hilfe
            tempo74

            1. Wie mache ich jedoch, das
              /de auf www.meineseite.at zeigt und nicht das Verzeichnis /de verboten wird?

              Meinen Post hast du gelesen?

      2. Hi,

        Und die anderen Suchmaschinen?

        Google, Yahoo und Microsoft haben dies gemeinsam beschlossen. Sind Dir andere bekannt, die Probleme mit Duplicate Content haben?

        Cheatah

        --
        X-Self-Code: sh:( fo:} ch:~ rl:| br:> n4:& ie:% mo:) va:) de:] zu:) fl:{ ss:) ls:~ js:|
        X-Self-Code-Url: http://emmanuel.dammerer.at/selfcode.html
        X-Will-Answer-Email: No
        X-Please-Search-Archive-First: Absolutely Yes
        1. »» Und die anderen Suchmaschinen?

          Google, Yahoo und Microsoft haben dies gemeinsam beschlossen. Sind Dir andere bekannt, die Probleme mit Duplicate Content haben?

          Wieso sollten andere ("kleinere") Suchmaschinen weniger Probleme haben? Außerdem, was für Probleme? Entweder der DC wird erkannt und nur eine Seite bleibt im Index oder er wird nicht erkannt. Oder meinst Du "Probleme damit haben" im Sinne von "die das nicht gern sehen"?

          In jedem Fall stellt sich das Problem von tempo74s Standpunkt aus anders.

          1. Hi,

            Wieso sollten andere ("kleinere") Suchmaschinen weniger Probleme haben?

            Duplicate Content führt in einigen Suchmaschinen recht schnell zum Ausschluss oder zumindest schlechter Wertung - nach meiner Erfahrung aber eben nur in den großen.

            Oder meinst Du "Probleme damit haben" im Sinne von "die das nicht gern sehen"?

            Genau.

            In jedem Fall stellt sich das Problem von tempo74s Standpunkt aus anders.

            Ich glaube, dass sein eigentliches Problem damit gelöst ist.

            Cheatah

            --
            X-Self-Code: sh:( fo:} ch:~ rl:| br:> n4:& ie:% mo:) va:) de:] zu:) fl:{ ss:) ls:~ js:|
            X-Self-Code-Url: http://emmanuel.dammerer.at/selfcode.html
            X-Will-Answer-Email: No
            X-Please-Search-Archive-First: Absolutely Yes
            1. Duplicate Content führt in einigen Suchmaschinen recht schnell zum Ausschluss oder zumindest schlechter Wertung - nach meiner Erfahrung aber eben nur in den großen.

              Bei DC über mehrere Domains ja. Bei DC innerhalb einer Domain wird nur eine der Seiten im Index geführt aber nicht abgestraft. Das ist jedenfalls mein "Kenntnis"-Stand.

              Egal ob jetzt nur eine Seite im Index geführt wird oder eine Suchmaschine eine der DC-Seiten am weitesten vorn in den Suchergebnissen führt, für diese Seite und deren Plazierung haben die Links auf die anderen urls keine oder nur eine abgeschwächte Wirkung.

              1. Hi,

                Bei DC über mehrere Domains ja.

                Wobei die Abstrafung dann die Domain betrifft, die damit später online gegangen ist (bzw. die später von der SuMa entdeckt wurde).

                Das ist jedenfalls mein "Kenntnis"-Stand.

                Meiner ebenfalls.

                Gruß, Cybaer

                --
                Zweck des Disputs oder der Diskussion soll nicht der Sieg, sondern der Gewinn sein.
                (Joseph Joubert, Schriftsteller)
                1. »» Bei DC über mehrere Domains ja.

                  Wobei die Abstrafung dann die Domain betrifft, die damit später online gegangen ist (bzw. die später von der SuMa entdeckt wurde).

                  Dein Wort in google Ohr.

                  1. Hi,

                    »» Wobei die Abstrafung dann die Domain betrifft, die damit später online gegangen ist (bzw. die später von der SuMa entdeckt wurde).
                    Dein Wort in google Ohr.

                    Wissen die wohl schon. ;)

                    Ich weiß es aus reiner Erfahrung. :)

                    Gruß, Cybaer

                    --
                    Zweck des Disputs oder der Diskussion soll nicht der Sieg, sondern der Gewinn sein.
                    (Joseph Joubert, Schriftsteller)
                    1. Wissen die wohl schon. ;)

                      Ich weiß es aus reiner Erfahrung. :)

                      Persönliche Erfahrung habe ich keine, aber ich kenne viele die sich beschweren, daß "Contendiebe" bei google ihre Stelle eingenommen haben. Und ich kenne einige, die kein Problem haben, weil, wie sie meinen, ihre Seiten "stärker" sind als die der Spamer.

                      Das Problem ist doch auch, was google als älter wertet (wenn sie tatsächlich nach dem Alter gehen) das ist nicht trivial.

                      1. Hi,

                        Persönliche Erfahrung habe ich keine, aber ich kenne viele die sich beschweren, daß "Contendiebe" bei google ihre Stelle eingenommen haben.

                        Ja, dann wertet das Google aber *nicht* als "Double Content". Das ist dann einfach ein Text(-ausschnitt) von einer Webseite, in einem neuen Kontext.

                        Wenn Du wirklich Seiten (auch für Google erkennbar) doppelt hast, dann greift, was ich schrieb.

                        Die Erkennung von DC ist für einen Menschen halt deutlich leichter (und etwas anderes) als für eine Maschine ...

                        Das Problem ist doch auch, was google als älter wertet (wenn sie tatsächlich nach dem Alter gehen) das ist nicht trivial.

                        Ich weiß es nicht, da ich nicht bei Google arbeite, aber meine Erfahrung sagt mir, daß der Zeitpunkt der ersten Indizierung entscheidet (nicht das Alter, das möglicherweise vom Server angegeben wird - das wäre ja auch zu leicht manipulierbar).

                        Ich könnte jetzt noch mehr dazu schreiben, aber ich gebe prinzipiell öffentlich möglichst keine SEO-Tips ... >;-)

                        Gruß, Cybaer

                        --
                        Zweck des Disputs oder der Diskussion soll nicht der Sieg, sondern der Gewinn sein.
                        (Joseph Joubert, Schriftsteller)
                        1. »» Persönliche Erfahrung habe ich keine, aber ich kenne viele die sich beschweren, daß "Contendiebe" bei google ihre Stelle eingenommen haben.

                          Ja, dann wertet das Google aber *nicht* als "Double Content". Das ist dann einfach ein Text(-ausschnitt) von einer Webseite, in einem neuen Kontext.

                          Es gibt genügend Leute, die sich nicht die Mühe machen ihr eigenes HTML um den Inhalt zu bauen, manche löschen/ändern nicht mal das Impressum. Das ist aber auch egal, ich reden von Fällen, bei den die Originalseite dann aus dem Index verschwindet. Das passiert nicht, wenn nur irgendeine Ähnlichkeit besteht.

                          Ich weiß es nicht, da ich nicht bei Google arbeite, aber meine Erfahrung sagt mir, daß der Zeitpunkt der ersten Indizierung entscheidet (nicht das Alter, das möglicherweise vom Server angegeben wird - das wäre ja auch zu leicht manipulierbar).

                          Bei einer absolut statischen Seite mag das so einfach sein aber was wenn sich Kleinigkeiten ändern? Das Problem ist nicht wann google etwas indiziert, sondern wann es WAS indiziert und wie registriert/definiert wird, was Stunde und Zustand Null war. Wie ich schon sagte, nicht trivial.

                          1. Hi,

                            ich reden von Fällen, bei den die Originalseite dann aus dem Index verschwindet. Das passiert nicht, wenn nur irgendeine Ähnlichkeit besteht.

                            Sicher. Ist mir aber gottseidank noch nicht begegnet. :-o

                            Was mir begegnet ist, daß der "Böse" fehlerhafte Weiterleitungen setzt, die die Google-Engine dann zu falschen Schlüssen verleitet hat. Ich weiß nicht, ob Google dieses Problem noch hat, der konkrete Fall war mit einer Abuse-Meldung nebst anschließendem Rauswurf des "Bösen" aus Google allerdings recht zügig erledigt ... >:->

                            Gruß, Cybaer

                            --
                            Zweck des Disputs oder der Diskussion soll nicht der Sieg, sondern der Gewinn sein.
                            (Joseph Joubert, Schriftsteller)
                            1. Was mir begegnet ist, daß der "Böse" fehlerhafte Weiterleitungen setzt, die die Google-Engine dann zu falschen Schlüssen verleitet hat. Ich weiß nicht, ob Google dieses Problem noch hat, ...

                              Hijacking mit einem 302er, "lange" nichts mehr davon gehört (ca. 3 Monate). Daher nehme ich an, daß sich an den Problemen nichts geändert hat. Das ist aber wieder ein anderes Thema.

      3. Und die anderen Suchmaschinen?

        There are none... (Ihr Google Team)
        welche sich um duplicate Content viel machen und es abstrafen. (Self)

        mfg Beat

        --
        ><o(((°>           ><o(((°>
           <°)))o><                     ><o(((°>o
        Der Valigator leibt diese Fische
        1. Siehe unten, es erfolgt keine Abstrafung, meiner Ansicht nach nach.

  2. Da es eine php-Seite ist habe ich über htaccess die Urls bereits Suchmaschienfreundlich gestaltet.

    Offenbar nicht. Wie haben die urls denn vorher ausgesehen?

    Wie schaffe ich es jedoch, über die htaccess den spidern zu sagen, das sie nur die www.meineseite.at spidern sollen, damit ich keinen duplicate Content habe?

    Das geht nicht mit htaccess, das geht mit der robots.txt. Mit der htaccess kannst Du die Seiten aber auf eine Seite weiterleiten.

  3. Wie schaffe ich es jedoch, über die htaccess den spidern zu sagen, das sie nur die www.meineseite.at spidern sollen, damit ich keinen duplicate Content habe?

    no-www.org sollte dir einen Ansatzpunkt für die Lösung deines Problems bescheren.

    Übrigens hast du auf einer Seite ein ungültiges SSL-Zertifikat (es ist nur für localhost gültig und ist vor über 9 Jahren abgelaufen).

  4. Hi!

    www.meineseite.at
    www.meineseite.at/de
    www.meineseite.at/de/index.html

    Gehe ich recht in der Annahme, dass deine Seite mehrsprachig ist und du Language-Negotiation betreibst?

    FG Ulysses

  5. Hi,

    Wie schaffe ich es jedoch, über die htaccess den spidern zu sagen, das sie nur die www.meineseite.at spidern sollen, damit ich keinen duplicate Content habe?

    Zumindest bei Google (die anderen sind eh nicht relevant >:->) kann man es bei den Webmaster-Tools einstellen, ob man "www" haben möchte oder nicht.

    Ansonsten wäre eine spontane Idee (habe selber keine Probleme mit Double Content), die robots.txt von einem PHP erzeugen zu lassen, und wenn die Resource als example.com/robots.txt angefordert wird, alles verbieten, wenn als www.example.com/robots.txt alles erlauben.

    Gruß, Cybaer

    --
    Zweck des Disputs oder der Diskussion soll nicht der Sieg, sondern der Gewinn sein.
    (Joseph Joubert, Schriftsteller)
    1. [X] Cybaer will die Frage noch mal lesen. :-)

      1. Hi,

        [X] Cybaer will die Frage noch mal lesen. :-)

        [X] Cybaer hat die Frage gut gelesen.
        [X] Cybaer arbeitet nicht dogmatisch, sondern lösungsorientiert. :-)

        Gruß, Cybaer

        --
        Zweck des Disputs oder der Diskussion soll nicht der Sieg, sondern der Gewinn sein.
        (Joseph Joubert, Schriftsteller)
        1. [X] Cybaer hat die Frage gut gelesen.
          [X] Cybaer arbeitet nicht dogmatisch, sondern lösungsorientiert. :-)

          Gut, ich wußte nicht, daß tempo74 (auch) das zu lösendes Problem hat, DC (auch) wegen der Erreichbarkeit über mit und ohne www zu haben.

  6. Hallo tempo74,

    lege auf deinem Server ein neues Verzeichnis an und lege in diesem eine neue htaccess-Datei mit folgendem Inhalt ab:

    Redirect permanent   /   http://www.meineseite.at/

    Stelle nun deinen Server so ein, dass "www.meineseite.at/de" auf das neu angelegte Verzeichnis zeigt. Dadurch wird, wenn jemand "www.meineseite.at/de" aufruft "http://www.meineseite.at/" angezeigt.

    Grüße

    Michael

    Hallo Leute!

    Ich habe auf meiner Webseite ein Problem mit dem doppelten Content.

    Und zwar ist ein und dieselbe Seite über:

    www.meineseite.at
    www.meineseite.at/de
    www.meineseite.at/de/index.html

    erreichbar.

    Da es eine php-Seite ist habe ich über htaccess die Urls bereits Suchmaschienfreundlich gestaltet.
    Wie schaffe ich es jedoch, über die htaccess den spidern zu sagen, das sie nur die www.meineseite.at spidern sollen, damit ich keinen duplicate Content habe?

    Kann mir jemand einen Codeschnipsel oder einen entsprechenden Link zukommen lassen.
    Ich wäre sehr dankbar!!!

    tempo74