SEO - Doppelter Inhalt bei Listen
T-Rex
- meinung
Moin,
ich weiß letztens schreibe ich noch das SEO ein Buch mit Sieben siegeln ist und sich da niemand gerne in die Karten gucken lässt und heute stelle ich selbst eine Frage :D.
Die Frage ist eigentlich recht simpel - wie erkennt Google doppelten Inhalt (doublicated Content)?
Als Hintergrund:
Wir haben da eine Seite die hat News (Anzahl 100). Die werden als Liste dargestellt. Bei diesen Beispiel sagen wir mal gibt es keine Blätterunfktion, also sind alle 100 auf einmal sichtbar. Da man 100 News nicht überblicken kann gibt es eine Filter Funktion. Man kann z.B. nur News von heute anzeigen lassen (als Beispiel bleiben 20 News stehen). Also hat man 2 (verschiedene?) Seiten - einmal mit 100 News und einmal mit 20 News.
Mein Kollege meint, dass wir alle Seiten welche eine Filterfunktionalität haben aus dem Google Index rausnehmen müssen aufgrund doppelter Inhalte. Sprich er meint, dass Google die Seite mit 100 News und die Seite mit 20 News als doppelten Content ansieht und die komplette Domain abstraft.
Meines Wissens nach bildet Google einen Hash um so doppelten Inhalt zu kontrollieren. Wenn man also einen kompletten Newsblock entfernt, dann kann der Hash nicht mehr stimmen. Ergo sind die zwei Seiten für Google komplett unterschiedlich.
Bitte um etwas Licht.
Gruß
Anti Maulwurf
T-Rex
Die Frage ist eigentlich recht simpel - wie erkennt Google doppelten Inhalt (doublicated Content)?
Indem sie den Inhalt vergleichen?
Mein Kollege meint, dass wir alle Seiten welche eine Filterfunktionalität haben aus dem Google Index rausnehmen müssen aufgrund doppelter Inhalte.
Das ist unsinn - doppelter Inhalt bezieht sich nur auf "gleiche Inhalte" auf unterschiedlichen Domains.
Sprich er meint, dass Google die Seite mit 100 News und die Seite mit 20 News als doppelten Content ansieht und die komplette Domain abstraft.
Nein.
Meines Wissens nach bildet Google einen Hash um so doppelten Inhalt zu kontrollieren.
Dann weißt du mehr als jeder andere - was auch immer Google tut, ich würde viel darauf wetten, dass kein "Hash aus dem Inhalt" gebildet wird, denn schon die geringste Abweichung, würde einen völlig anderen Streuwert erstellen.
Google zerlegt den Inhalt in Satzfragmente ("Shingles") und vergleicht diese miteinander (Wobei in diesen auch Wörter durch z.B durch Synonyme ersetzt werden) - so lässt sich auch z.B. eine geänderte Satzstellung als doppelter Inhalt identifizeren. Aber wie gesagt: das zählt nur Domainübergreifend.
Wenn man also einen kompletten Newsblock entfernt, dann kann der Hash nicht mehr stimmen. Ergo sind die zwei Seiten für Google komplett unterschiedlich.
Siehe oben.
Bitte um etwas Licht.
http://www.google.com/support/webmasters/bin/answer.py?hl=de&answer=66359
Im endeffekt reicht es, auf sämtlichen Archivunterseiten die Archivstartseite als "canonical" zu definieren, wenn man will, dass diese "primär" in den Suchergebnisseiten erscheint - aber selbst wenn man das nicht tut, kapiert Google das schon ziemlich gut selbst.
Wieso ist das nur bei unterschiedlichen Domains relevant?
In der Hilfe von Google steht zu dem Thema das man es nicht möchte dass man im Ranking nach oben rutschst durch doppelten Inhalt. Aber passiert das nicht, wenn ich 20 mal die gleiche Seite auf der gleichen Domain habe?
Ab wann redet man den eigentlich über doppelte Inhalte?
Gibt es irgendwie eine Prozent Anzahl, so dass 30% anders sein müssen?
Gruß
sich ans Licht buddelnder
T-Rex
Hallo
Wieso ist das nur bei unterschiedlichen Domains relevant?
In der Hilfe von Google steht zu dem Thema das man es nicht möchte dass man im Ranking nach oben rutschst durch doppelten Inhalt. Aber passiert das nicht, wenn ich 20 mal die gleiche Seite auf der gleichen Domain habe?
Das passiert – bzw. Google schätzt das so ein – , wenn mehrere Domains gleichlautende Inhalte haben, um die Relevanz des Inhalts und damit der Domains zu betonen und erhöhen. Auf einer Website, also auf einer Domain, hast du typischerweise einen Haufen gleicher Abschnitte. Angefangen von immer wieder auftauschenden Elementen wie der Navigation, bis hin zu Übersichten der Inhalte, die Ausschnitte des auf anderen Seiten enthaltenen Inhalts anbieten (Teaser).
Das ist normal und wenn es abgestraft würde, dürften die großen Nachrichtenportale in Googles Suchergebnissen erst relativ weit hinten auftauschen.
Tschö, Auge
Wieso ist das nur bei unterschiedlichen Domains relevant?
Lies doch bitte die verlinkte Seite einfach bis zum Ende.
In der Hilfe von Google steht zu dem Thema das man es nicht möchte dass man im Ranking nach oben rutschst durch doppelten Inhalt. Aber passiert das nicht, wenn ich 20 mal die gleiche Seite auf der gleichen Domain habe?
Lies doch bitte die verlinkte Seite einfach bis zum Ende.
Ab wann redet man den eigentlich über doppelte Inhalte?
Wikipedia-Klone z.B. sind Doppelter Inhalt - findest du heutzutage noch einen der tausenden Klone in den Suchergebnisseiten?
Gibt es irgendwie eine Prozent Anzahl, so dass 30% anders sein müssen?
Das weiß nur Google.
Hi!
Die Frage ist eigentlich recht simpel - wie erkennt Google doppelten Inhalt (doublicated Content)?
Eine generelle Antwort zu SEO (aus meiner laienhaften Sicht) ist: Hör auf dir Gedanken um die Suchmaschine zu machen. Dein Ziel sind Menschen, also optimiere die Seite für Menschen. Denn die sind auch die Kunden der Suchmaschinen und was für Menschen gut ist muss somit auch für Suchmaschinen gut sein.
Lo!
100% meine Ansicht!!
Diese Ansicht stößt aber nun mal an ihre Grenzen. Das obige Beispiel zeigt es eine davon. Für einen Menschen würde es nichts machen immer die gleichen News zu sehen, für eine Suchmaschine eventuell schon.
Auch wenn man auf 20 Domains die gleiche Inhalte hätte, wäre für einen Menschen nicht so schlimm. Wenn man example.de, ex-ample.de oder e-x-a-m-p-l-e.de bedienen möchte wäre eigentlich egal. Wenn sich ein Mensch die erste Domain besser merken kann soll er die nehmen, ein anderer merkt sich die zweite Domain besser, soll er die nehmen. Suchmaschinen strafen das jedoch ab. Weiterleitung heißt das Zauberwort.
Aber im Grunde hast du schon recht und wie gesagt sehe ich das genau so!
Gruß
Menschenverstandbenutzender
T-Rex
Suchmaschinen strafen das jedoch ab. Weiterleitung heißt das Zauberwort.
Woher nimmst du diesen Unsinn? Ich habe dir die Google-Seite verlinkt, da steht, dass man nicht dafür bestraft wird.
"Duplizierter Content auf einer Website ist kein Grund für Maßnahmen gegen diese Website, außer es scheint, dass mit diesem duplizierten Content Nutzer getäuscht bzw. Suchmaschinenergebnisse manipuliert werden sollen."
Und eine herkömmliche Archiv-Funktion mit Filtern ist sicher nichts, womit man seine Besucher täuscht oder Suchergebnisseiten manipuliert. Ansonsten würde sofort jede Wordpress-Site aus dem Index fliegen.
Suchmaschinen strafen das jedoch ab. Weiterleitung heißt das Zauberwort.
Woher nimmst du diesen Unsinn? Ich habe dir die
Wieso denn Unsinn? Wenn man 10 Domains hat mit exakt der gleichen Webseite ist das doch das beste Beispiel für doppelten Content!
Das Beispiel mit der Archiv Funktion sehe ich genau so. Mein Kollege meint dass sei Interpretations Sache der Google Leute. Und ein wenig hat er natürlich recht. Wann fängt es denn an das "Nutzer-Täuschen"? Auf jeden Fall nicht bei einem Archiv oder bei einem Filter für News!
Gruß
verlinkte Google Seite schon heute früh bis zum Ende lesender
T-Rex
Hallo
Suchmaschinen strafen das jedoch ab. Weiterleitung heißt das Zauberwort.
Woher nimmst du diesen Unsinn? Ich habe dir die
Wieso denn Unsinn? Wenn man 10 Domains hat mit exakt der gleichen Webseite ist das doch das beste Beispiel für doppelten Content!
Die ganze Zeit ging es um doppelten Inhalt auf mereren Seiten, die alle zu einer Domain gehören. *Jetzt*, wo dir mehrfach geschrieben wurde, dass der Double-Content-Kram nur zutrifft, wenn es um doppelten Inhalt, der auf mehreren Domains gedoppelt ist, geht, kommst du *genau damit*?
Tschö, Auge
hab ich in meinem Post um 14 Uhr explizit angegeben
http://forum.de.selfhtml.org/?t=207083&m=1406872
Hmmm.... um das hier mal ab zu runden. Meine Fragen sind denke ich beantwortet:
Generell halte ich die canonical url als die Lösung für doppelte Inhalte
Danke an alle!
Gruß
befriedigter
T-Rex
hab ich in meinem Post um 14 Uhr explizit angegeben
Nein, du hast "Auch wenn man auf 20 Domains die gleiche Inhalte hätte" - und nicht "Ich habe hier 20 Domains mit demselben Inhalt" - das ist ein fundamentaler Unterschied.
Und trotzdem: es ist kein Problem, Google ist gut darin, die zu erkennen, ob das alles deine Domains sind und alle auf denselben Server zeigen oder eben nicht. Nur hat das eben nicht zur Folge, dass bei einer Suche nach "example" in den ersten 20 Treffern alle 20 Domains von dir stehen sondern eben nur eine, die Google als "Hauptdomain" empfindet (oder du eben dediziert als solche angibst).
- Bei Listen muss es einfach doppelte Inhalte geben.
Nein, muss es nicht - du kannst bei weniger umfangreichen Listen alles auf einer Seite anzeigen und dann die Filter mit JavaScript realisieren. Wenn es z.B. verschiedene Sortierreihenfolgen gibt, gibt es keine Grund für jede Sortiermöglichkeit ein HTML-Dokument zu generieren.
Ist aber auch nicht schlimm, da es in der Natur eines Filter liegt gleichen Inhalt auf mehrere Seiten an zu zeigen.
Siehe oben :)
- Hat man doch mal doppelte Inhalte sagt die Google Hilfeseite, dass dies auch nicht sooo tragisch wäre. Man könne aber wenn möglich die Inhalte irgendwie zusammen fassen.
Ja, man muss aber nicht - das Beispiel ist etwas weit hergeholt - zwei Städte mit denselben Features zusammenfassen?
"Sightseeing in München" und "Sightseeing in Wien" - auf beiden Seiten gibsts nur einen Link wo dir dann gesagt wird, dass du den Dom besuchen sollst :p
- Sollte man gleiche Inhalte auf mehreren Seiten innerhalb oder außerhalb einer Domain haben und kann sie nicht irgendwie zusammenfassen bleibt immer noch die möglichkeit einer canonical url.
Und auch das muss nicht notwendigerweise sein - funktioniert auch ohne. Ich hab' einige Hotels hier die ein Restaurant, ein Hotel, eine Skihütte und was der Teufel noch zusätzlich bereiben und auf jeder der entsprechenden Domains gibt es teilweise sehr ähnliche (oder idente) Inhalte, weil diese auf demselben Server in demselben CMS liegen - das hat Google bisher einfach nicht gestört. Natürlich sind die Sites nicht vollkommen ident, aber es gibt durchaus wiederkehrende Informationen - z.B. sind die AGB absolut ident.
Wenn man aber nach "Hotel Example AGB" sucht findet man problemlos die AGB unterhalb der Domain hotel.example und wenn man nach "Skihütte Example AGB" sucht eben die unter der Domain skihütte.example.
Wenn man nach "Example AGB" sucht, findet man aber nicht sämtliche Variationen sondern die des Hotels - und die Beziehung der unterschiedlichen Sites zueinander ist für Google aufgrund der Cross-Domain-Links auch deutlich ersichtlich.
Wenn sowas auftritt gehe ich davon aus, dass das irgend ein Google-Mitarbeiter manuell prüft und dann eben sein go oder no-go gibt. Sowas lässt sich automatisch kaum prüfen.
Generell halte ich die canonical url als die Lösung für doppelte Inhalte
Wenn es wirklich exakt dieselbe Website unterhalb unterschiedlicher Domains ist, dann ist zusammenleiten auf eine einzelne Primärdomain sicher die am wenigsten aufwändigste Variante.
Hi!
Auch wenn man auf 20 Domains die gleiche Inhalte hätte, wäre für einen Menschen nicht so schlimm. Wenn man example.de, ex-ample.de oder e-x-a-m-p-l-e.de bedienen möchte wäre eigentlich egal. Wenn sich ein Mensch die erste Domain besser merken kann soll er die nehmen, ein anderer merkt sich die zweite Domain besser, soll er die nehmen. Suchmaschinen strafen das jedoch ab. Weiterleitung heißt das Zauberwort.
Eine Suchmaschine ist natürlich nicht intelligent, aber die Google-Programmierer schon. Die wissen auch, dass es Vertipper-Einfang-Domains gibt. Und dafür haben sie sich was ausgedacht, dass man die Seiten der Neben-Domains kennzeichnet. Einfach nur ein spezielles Meta-Element einfügen (irgendwas mit canonical - steht auf den Webmaster-Seiten von Google), das die bevorzugte URL angibt. Fertig.
Lo!