Website - Robots.txt


Het Robots Exclusion Protocol oftewel een robots.txt bestand is een bestand dat gebruikt kan worden als aanvulling op je website om zo bepaalde informatie door te geven aan zoekmachines zoals de Googlebot. Een robots.txt bestand is een gewoon een simpel tekstbestand die wordt geplaatst in de root van je website, dus het hoogste niveau. In dat geval is het bestand te benaderen door www.domein.nl/robots.txt in te typen.

Ook op het moment dat je bots geen toegang wilt geven tot subdomeinen zorg dan dat het bestand in de root van het subdomein staat, bijvoorbeeld: subpagina.website.nl/robots.txt. Op deze manier krijgt een eventueel subdomein net als het hoofddomein een eigen robots.txt. Het plaatsen van een robots.txt bestand in een map zal niet werken.

Robots.txt

Het robots.txt bestand kan diverse regels bevatten om zodoende indexering van een website of specifiek bepaalde mappen te voorkomen. Wat belangrijk is om te weten is dat niet alle robots het robots.txt ondersteunen maar de grote zoekmachines uiteraard wel waaronder Google. Verder kun je hiermee welliswaar toegang tot een bepaalde map voor robots instellen maar is het niet mogelijk om bezoekers te blokkeren.

Als alternatief is indexering ook tegen te gaan met behulp van metatags.

Om gebruik te maken van het protocol maak met kladblok een robots.txt bestand en sla deze op in de root van je website. Een robots.txt bestand begint met het defineren voor welke user-agent de aangegeven regels gelden zoals je hieronder ziet.

Het is wel verstandig, ook als je niets wilt blokkeren om een robots.txt bestand te plaatsen met daarin minstens de onderstaande code. Eventueel plaatsen maar leeglaten kan ook.

User-agent: *
Disallow:


In de bovenstaande code zie je dat achter User-agent een asterisk * is ingevoerd. Dit betekent dat de regels gelden voor alle robots die het robots.txt protocol ondersteunen. In plaats van een asterisk kan er ook specifiek een zoekmachine worden ingevoerd. Zo kan er op deze manier bijvoorbeeld aan worden gegeven dat de Googlebot een bepaalde map niet mag indexeren maar andere bots, zoals die van Microsoft dit wel mogen.

Het leeglaten van 'Disallow' zoals hierboven geeft aan dat er niets wordt geblokkeerd. Door achter Disallow een '/' te plaatsen wordt de gehele website geblokkeerd.

Bots

Nu is in Nederland Google de meest gebruikte zoekmachine en kun je dus eenvoudig Googlebot instellen achter user-agent, dit wordt dan in plaats van een asteriks, Googlebot. Let wel op dat het bestand dan dus alleen van toepassing is op Google, andere robots zullen het bestand dan negeren tenzij je daar iets anders voor definieert.

User-Agent: Googlebot


User-Agent: msnbot


User-Agent: slurp


Google kent nog een aantal andere robots die te blokkeren zijn, dit zijn: Googlebot-Mobile, Googlebot-Image, Googlebot-News, Mediapartners-Google en Adsbot-Google.

Mappen

Het blokkeren van bepaalde mappen gaat op de volgende manier. Dit wordt aangegeven door de naam van een map of bestand in te vullen achter Disallow. Om juist toegang te geven tot een specifiek bestand of een bepaalde map gebruik je Allow.

User-Agent: *
Disallow: /map/submap/


Op deze manier kun je allerlei combinaties maken.

User-Agent: *
Allow: /map/submap/document.html
Disallow: /map/submap/
Disallow: /tweedemap/tweedesubmap/


User-Agent: *
Disallow: /map/submap/test.html


Op een vergelijkbare manier is aan te geven dat een bot geen toegang heeft tot bestanden die eindigen op .html. Dit kun je ook doen met andere bestandsformaten bijvoorbeeld .jpg.

User-Agent: *
Disallow: /*.html$


Google

Het is overigens zo dat het blokkeren met een robots.txt bestand niet direct wil zeggen dat de pagina niet in Google naar boven komt. Bijvoorbeeld als een pagina is geblokkeerd met behulp van een robots.txt bestand maar er wel veel verwijzingen naar toe zijn geplaatst vanaf andere websites kan Google een referentie opnemen in de index zonder dat er in de zoekresultaten content van de pagina wordt getoond in een snippet.

Wil je dit ook voorkomen neem dan een noindex metatag.

Bestaande robots

Je kunt natuurlijk niet alle namen van alle bots weten. Daarom is bestaat er een lijst met een overzicht van alle bekende robots. Deze lijst kun je vinden op: robotstxt.org/db.html.

Sitemap

In een robots.txt kan verder aangegeven worden dat je website een XML sitemap heeft. Door de onderstaande regel op te nemen in het bestand geef je de locatie aan.

Sitemap: http://www.website.nl/sitemap.xml


Comments

Als laatste kun je net als bij HTML en CSS ook comments plaatsen in het robots.txt bestand. Dit doe je door een regel te beginnen met een hekje, "#".

Sitemap: http://www.website.nl/sitemap.xml # De sitemap van de website

Bereikbaarheid

Hoewel het niet verplicht is om een robots.txt te plaatsen is het wel noodzakelijk als je deze plaatst dat deze altijd bereikbaar is. Indien Google het bestand met regelmaat niet kan openen (en dus wel weet dat deze bestaat) dan kan het zijn dat de zoekmachine stopt met het indexeren van de website om zo te voorkomen dat eventueel geblokkeerde pagina's worden meegenomen. In het kort komt het er op neer dat het bestand altijd een status 200 moet teruggeven. Eventueel een status 404 mag ook indien er geen bestand aanwezig is.