Robots.txt
Een bestand in de root van een website dat crawlers instrueert welke pagina's ze wel en niet mogen bezoeken.
Robots.txt is een tekstbestand dat in de root van een website staat (example.com/robots.txt) en dat webcrawlers instrueert welke delen van de site ze mogen crawlen. Het volgt het Robots Exclusion Protocol, een standaard uit 1994 die nog steeds de basis vormt voor de communicatie tussen websites en bots.
Hoe werkt robots.txt?
Het bestand bevat regels per user-agent (bot). Je kunt specifieke paden blokkeren met Disallow of toestaan met Allow. Daarnaast kun je verwijzen naar je sitemap — bibliotheekterm. Bots zijn niet verplicht robots.txt te respecteren, maar alle grote zoekmachines doen dit wel.
Robots.txt en AI-bots
Met de opkomst van AI-bots zoals GPTBot en ClaudeBot is robots.txt relevanter dan ooit. Je kunt per bot bepalen welke content toegankelijk is voor AI-training en scraping. Dit is een kernonderdeel van je AI-bot rules — bibliotheekterm strategie.
Compleet robots.txt template
Hieronder een uitgebreid robots.txt-voorbeeld voor een bedrijfssite, inclusief regels voor AI-bots:
# ==============================================
# Robots.txt voor bedrijfssite
# ==============================================
# Standaardregel: alle reguliere bots welkom
User-agent: *
Allow: /
Disallow: /admin/
Disallow: /api/
Disallow: /tmp/
Disallow: /cart/
Disallow: /checkout/
Disallow: /account/
Disallow: /search?
Disallow: /*?sort=
Disallow: /*?filter=
# Google
User-agent: Googlebot
Allow: /
# Bing
User-agent: Bingbot
Allow: /
# --- AI-bot regels ---
# OpenAI GPTBot (gebruikt voor ChatGPT, browsing)
User-agent: GPTBot
Allow: /blog/
Allow: /kennisbank/
Disallow: /
# OpenAI ChatGPT-User (live browsing in gesprekken)
User-agent: ChatGPT-User
Allow: /
# Anthropic ClaudeBot
User-agent: ClaudeBot
Allow: /blog/
Allow: /kennisbank/
Disallow: /
# Google Extended (AI-training, niet zoekmachine)
User-agent: Google-Extended
Disallow: /
# Common Crawl (dataset voor AI-training)
User-agent: CCBot
Disallow: /
# Perplexity
User-agent: PerplexityBot
Allow: /
# Meta AI-crawler
User-agent: FacebookBot
Disallow: /
# Bytedance AI-crawler
User-agent: Bytespider
Disallow: /
# Apple AI-crawler
User-agent: Applebot-Extended
Disallow: /
# Sitemap-verwijzing
Sitemap: https://example.com/sitemap.xml
Veelgemaakte fouten
- Volledige site blokkeren per ongeluk:
Disallow: /onderUser-agent: *blokkeert alle crawlers. Dit kan je volledige indexering — bibliotheekterm verwijderen. - Geen robots.txt aanwezig: zonder robots.txt retourneert de server een 404, wat betekent dat bots alles mogen crawlen. Maak altijd een expliciet bestand aan, ook als je alles wilt toestaan.
- Spaties of typefouten:
Dissallowofuser-agent(kleine u) worden genegeerd. De syntax is hoofdlettergevoelig voor de directive-namen. - Gevoelige URL's "verbergen" via robots.txt: robots.txt is publiek leesbaar. Blokkeer nooit gevoelige pagina's alleen via robots.txt; gebruik authenticatie of noindex.
- Sitemap-pad vergeten: verwijs altijd naar je sitemap in robots.txt. Dit is een van de belangrijkste manieren waarop zoekmachines je sitemap ontdekken.
- Conflicterende regels: als je
Disallow: /enAllow: /blog/hebt, wint de meest specifieke regel. Maar de volgorde en specificiteit zijn soms verwarrend. - AI-bots negeren: veel sites hebben nog geen regels voor GPTBot, ClaudeBot en andere AI-crawlers. Neem expliciet een beslissing over welke AI-bots je wilt toelaten.
Veelgestelde vragen
Is robots.txt bindend voor bots?
Nee, robots.txt is een richtlijn, geen afdwingbaar beveiligingsmechanisme. Alle gerenommeerde zoekmachines en AI-bots respecteren robots.txt, maar kwaadwillende bots kunnen het negeren. Gebruik het voor crawlbeheer, niet voor beveiliging.
Blokkeert robots.txt ook indexering?
Niet per se. Als een geblokkeerde URL links van andere sites ontvangt, kan Google de URL nog steeds indexeren (zonder de inhoud te kennen). Gebruik een noindex meta-tag als je volledige de-indexering wilt.
Hoe snel pikken bots wijzigingen in robots.txt op?
Google cachet robots.txt doorgaans voor 24 uur. Na een wijziging kan het dus een dag duren voordat de nieuwe regels actief zijn. Je kunt via Google Search Console een hernieuwde controle aanvragen.
Moet ik AI-bots blokkeren?
Dat hangt af van je strategie. Als je wilt dat AI-chatbots je content citeren, sta ze dan toe. Als je je content wilt beschermen tegen AI-training, blokkeer bots als GPTBot en Google-Extended. Een veelgekozen middenweg is het toestaan van zoek/browse-bots (ChatGPT-User, PerplexityBot) en het blokkeren van training-bots.
Wat is het verschil tussen Disallow en noindex?
Disallow in robots.txt voorkomt dat een bot de pagina crawlt, maar niet dat de URL geindexeerd wordt. noindex (als meta-tag of X-Robots-Tag header) instrueert een bot om de pagina niet te indexeren. Voor volledige controle gebruik je beide: de pagina is dan niet crawlbaar en niet indexeerbaar.
Wat checkt onze scanner?
Onze scanner controleert of je website een geldig robots.txt bestand heeft, of het correct geparsed kan worden, en of er specifieke regels zijn voor AI-bots (GPTBot, ClaudeBot, Google-Extended en meer). We analyseren of je een bewuste keuze hebt gemaakt over AI-bot toegang. Test je robots.txt configuratie.