Google - Voorkom duplicate content / canonical tag


Duplicate content is een probleem dat zich voor kan doen op het moment dat een pagina op meerdere manieren is te bereiken bijvoorbeeld op het moment dat er variabelen worden toegevoegd aan een url. Een pagina kan normaal gesproken bereikbaar zijn door te surfen naar 'domein.nl/bloemen_rozen', echter op het moment dat er variabelen aan worden toegevoegd kan de url er heel anders uitzien, bijvoorbeeld 'domein.nl/bloemen_rozen&categoryid=12&Itemid=4&trackid=4339'.

Een dergelijk probleem kan zich bijvoorbeeld voordoen bij webshops en zodoende kunnen er een hoop verschillende url's ontstaan het dezelfde product die nagenoeg gelijk zijn aan elkaar maar vallen in verschillende categorieen.

www.domein.nl/trainingen/seoworkshop/
www.domein.nl/products/workshops/seoworkshop/


Ook kan het bijvoorbeeld voorkomen op het moment dat er een code wordt toegevoegd voor Google Analytics. Een andere mogelijkheid is als er een wildcard voor subdomeinen is ingesteld wat inhoudt dat je website ook te bezoeken is via elk subdomein.

Canonical tag

In februari 2009 hebben Google, Yahoo en Microsoft de canonical tag geïntroduceerd als een hulpmiddel om duplicate content tegen te gaan. Deze tag is bedoeld om aan te geven wat de originele url is voor de pagina in kwestie. Zoekmachines zullen dan zien dat alle url's bij dezelfde pagina horen en zodoende slechts één pagina indexeren. Dit werkt onder water op een vergelijkbare manier als een permanente 301 redirect.

Je plaatst deze tag waarvan de code hieronder, in het <head> gedeelte van een website. Het wordt hierbij aangeraden om een absoluut pad in te vullen in de tag.

Extern

Normaal gesproken zul je binnen de tag verwijzen naar pagina's binnen dezelfde website maar extern linken kan ook. Inmiddels is het zo dat Google meerdere domeinen ondersteund. Zodoende kun je dan op 'domein1.com' een verwijzing opnemen in de tag naar 'domein.nl' om zo over meerdere domeinen duplicatie content te voorkomen.

Naast dit alles worden overigens 404 pagina's genegeerd.

Code

De tag ziet er als volgt uit,

<link rel="canonical" href="http://www.domein.nl/bloemen_rozen" />


In de praktijk kan dit als volgt zijn door de tag te plaatsen op de pagina "domein.nl/bloemen_rozen&categoryid=12&Itemid=4&trackid=4339".

Hier is de tag dan opgenomen in de head sectie van de pagina met in de tag het juiste adres "http://www.domein.nl/bloemen_rozen".

Alle pagina's

Google geeft aan dat het geen kwaad kan om de tag op te nemen op elke pagina van een website, echter is het in dat geval wel verstandig om goed over de implementatie na te denken om zodoende eventuele problemen te voorkomen. Concurrent Bing zal in dat geval de tag minder vertrouwen. Tevens ziet Gogole er geen probleem in als de tag naar zichzelf verwijst, Bing geeft als advies om in dat geval de tag geheel leeg te laten.

Geen richtlijn

De tag is echter geen officiële richtlijn maar een 'hint' voor de zoekmachines. Het is daarnaast altijd beter om duplicate content te voorkomen in plaats van het plaatsen van deze tag. Zorg dus, mits mogelijk dat je geen dubbele content op je website hebt en voorkom het gebruik van deze tag tenzij het niet anders kan.

Eventueel als alternatief kun je gebruik maken van 301 redirects maar maak hiervoor geen gebruik van een robots.txt bestand. Zijn er problemen door parameters in de URL dan kun je deze filteren met behulp van de parameter tool in Webmaster Tools.

In het geval van het tonen met of zonder www kun je dit al heel eenvoudig aangeven in Webmaster Tools. Je geeft dan aan hoe je wilt dat de url's getoond moeten worden in de zoekresultaten. Als alternatief kun je dit ook instellen met .htaccess.

Index.html

Dubbele content kan ook voorkomen met de homepage. Deze is bereikbaar op het domein zelf, bijvoorbeeld www.domein.nl maar dezelfde pagina is ook bereikbaar via www.domein.nl/index.html. In dit geval heb je dus twee url's voor dezelfde pagina.

Dit is ook eventueel op te lossen met de canonical tag of via .htaccess. Echter hierover heeft Google verklaart dat de index pagina standaard hetzelfde behandeld zal worden als het domein en dus niet gezien zal worden als dubbele content. Tenzij de beide url's verschillende content bevatten, in dat geval zal Google dit oppakken.