TECHNISCHE SEO PROTOCOL & STANDAARDEN 30 dec. 2025 9 min leestijd

Robots.txt voor AI: meer dan alleen crawl-instructies

Bas Vermeer SEO/AEO Specialist

Robots.txt voor AI: meer dan alleen crawl-instructies — Technische SEO

Robots.txt in het AI-tijdperk

Het robots.txt — bibliotheekterm bestand bestaat al sinds 1994 en was oorspronkelijk bedoeld als een eenvoudig mechanisme om webcrawlers te vertellen welke delen van je website ze wel en niet mogen bezoeken. Dertig jaar later heeft dit bescheiden tekstbestand een volledig nieuwe dimensie gekregen: het is de eerste verdedigingslinie en tegelijkertijd de toegangspoort voor AI-bots die je content willen lezen en verwerken.

De explosieve groei van AI-modellen heeft geleid tot een nieuwe generatie crawlers. Naast de bekende Googlebot en Bingbot bezoeken nu ook GPTBot (OpenAI), ClaudeBot (Anthropic), PerplexityBot en GoogleExtended (voor Gemini training) dagelijks miljoenen websites. Hoe je je robots.txt configureert, bepaalt direct of deze AI-systemen je content kunnen indexeren en als bron gebruiken.

Robots.txt is een van de fundamentele bouwstenen van Answer Engine Optimization (AEO). Zonder correcte configuratie kan zelfs de best geschreven content onzichtbaar blijven voor AI-modellen. In combinatie met een llms.txt bestand vormt het de basis van je technische AI-strategie.

De belangrijkste AI-bots en hun user agents

Om je robots.txt correct te configureren, moet je weten welke AI-bots er zijn en hoe ze zich identificeren. Hier zijn de belangrijkste AI-crawlers die je in 2026 moet kennen.

GPTBot (OpenAI): crawlt voor ChatGPT's browsingfunctie en voor trainingsdata. User agent: GPTBot.
ChatGPT-User (OpenAI): de browsing agent die in real-time pagina's ophaalt tijdens een conversatie. User agent: ChatGPT-User.
ClaudeBot (Anthropic): crawlt voor Claude's kennisbasis. User agent: ClaudeBot.
PerplexityBot: crawlt voor Perplexity's real-time zoekantwoorden. User agent: PerplexityBot.
GoogleExtended: aparte user agent die Google gebruikt voor AI-training (Gemini). User agent: Google-Extended.
Bytespider (ByteDance): crawlt voor TikTok's AI-diensten. User agent: Bytespider.
CCBot (Common Crawl): open dataset die veelvuldig wordt gebruikt voor AI-training. User agent: CCBot.
Applebot-Extended (Apple): crawlt voor Apple Intelligence features. User agent: Applebot-Extended.
Meta-ExternalAgent (Meta): crawlt voor Meta AI-producten. User agent: Meta-ExternalAgent.

Training versus browsing: een cruciaal onderscheid

Niet alle AI-crawlers zijn gelijk. Het is essentieel om te begrijpen dat er twee fundamenteel verschillende categorieeen bestaan. Training crawlers verzamelen data om AI-modellen te trainen. Ze lezen je content eenmalig en gebruiken het om het model te verbeteren. Browsing agents halen je content op in real-time wanneer een gebruiker een vraag stelt. Deze agents zijn direct verantwoordelijk voor citaties in AI-antwoorden.

Dit onderscheid is cruciaal voor je strategie. Als je in AI-antwoorden wilt verschijnen, moet je browsing agents toelaten. Training crawlers blokkeren heeft minder directe impact op je zichtbaarheid, al kan het op langere termijn wel invloed hebben op hoe goed AI-modellen je domein kennen.

Een complete robots.txt configuratie

Hieronder vind je een voorbeeld van een robots.txt configuratie die bewust omgaat met AI-bots. Deze configuratie staat de belangrijkste AI-crawlers toe om je publieke content te indexeren, terwijl privacygevoelige secties worden afgeschermd.

# Standaard crawlers
User-agent: Googlebot
Allow: /

User-agent: Bingbot
Allow: /

# AI-crawlers: toegang tot publieke content
User-agent: GPTBot
Allow: /blog/
Allow: /docs/
Allow: /products/
Disallow: /account/
Disallow: /admin/
Disallow: /api/internal/

User-agent: ChatGPT-User
Allow: /
Disallow: /account/
Disallow: /admin/

User-agent: ClaudeBot
Allow: /blog/
Allow: /docs/
Allow: /products/
Disallow: /account/
Disallow: /admin/
Disallow: /api/internal/

User-agent: Google-Extended
Allow: /blog/
Allow: /docs/
Disallow: /account/
Disallow: /admin/

User-agent: PerplexityBot
Allow: /blog/
Allow: /docs/
Allow: /products/
Disallow: /account/
Disallow: /admin/

# AI-training crawlers beperken
User-agent: Bytespider
Disallow: /

User-agent: CCBot
Disallow: /

# Alle overige bots
User-agent: *
Allow: /
Disallow: /account/
Disallow: /admin/

# Sitemap en llms.txt
Sitemap: https://www.example.nl/sitemap.xml
Llms-Txt: https://www.example.nl/llms.txt

De logica achter deze configuratie

In dit voorbeeld maken we een bewuste keuze per bot-type. De browsing agents (ChatGPT-User, PerplexityBot) die content ophalen tijdens een gebruikersconversatie krijgen ruimere toegang, omdat citering in real-time antwoorden direct waarde oplevert. Training crawlers (Bytespider, CCBot) worden geblokkeerd omdat ze content gebruiken voor modeltraining zonder directe zichtbaarheid terug te geven.

Crawl-delay en rate limiting

Sommige AI-crawlers zijn agressiever dan traditionele bots. Als je merkt dat een AI-crawler je server overbelast, kun je de Crawl-delay directive gebruiken om het tempo te beperken. Let op: niet alle bots respecteren Crawl-delay, maar de meeste serieuze crawlers doen dit wel.

# Rate limiting voor AI-crawlers
User-agent: GPTBot
Allow: /blog/
Allow: /docs/
Crawl-delay: 2

User-agent: ClaudeBot
Allow: /blog/
Allow: /docs/
Crawl-delay: 2

Veelgemaakte fouten bij AI-bot configuratie

Bij het configureren van robots.txt voor AI-bots zien we regelmatig dezelfde fouten die bedrijven onbedoeld onzichtbaar maken voor AI-systemen.

Alle AI-bots blokkeren met een wildcard: sommige bedrijven blokkeren reflexmatig alle AI-bots, maar dit maakt je onzichtbaar in ChatGPT, Claude, Perplexity en andere AI-zoekresultaten.
Geen onderscheid maken tussen training en browsing: blokkeer trainingscrawlers als je wilt, maar sta browsing agents toe als je in AI-antwoorden wilt verschijnen.
De robots.txt niet bijwerken: nieuwe AI-bots verschijnen regelmatig. Controleer minstens elk kwartaal of er nieuwe user agents zijn die je moet configureren.
Geen Llms-Txt directive opnemen: de Llms-Txt regel in robots.txt helpt AI-crawlers je llms.txt — bibliotheekterm bestand te ontdekken.
Inconsistentie tussen robots.txt en meta robots tags: zorg dat je robots.txt regels en je HTML meta robots tags niet met elkaar in conflict zijn.

De "ik blokkeer alles" valkuil

Een reactie die we vaak zien bij bedrijven die voor het eerst over AI-crawlers horen, is paniek: "Blokkeer alles!" Dit is begrijpelijk vanuit een privacy-perspectief, maar strategisch vaak een slechte keuze. Door alle AI-crawlers te blokkeren maak je jezelf onzichtbaar voor ChatGPT, Perplexity en andere AI-zoekmachines. Je concurrent die dit niet doet, neemt je plek in als geciteerde bron. De betere aanpak is een genuanceerde configuratie: sta browsing toe, beperk training, bescherm gevoelige data.

LET OP

Robots.txt is gebaseerd op vertrouwen, niet op afdwinging. Niet alle AI-crawlers respecteren robots.txt. Het is desondanks essentieel om het correct te configureren, omdat de grote, betrouwbare AI-platforms (OpenAI, Anthropic, Google) de regels wel respecteren.

Robots.txt testen en monitoren

Na het aanpassen van je robots.txt is het belangrijk om te verifiëren dat de configuratie correct werkt. Gebruik Google Search Console om te controleren of Googlebot en Google-Extended de juiste pagina's kunnen bereiken. Monitor je serverlogbestanden om te zien welke AI-bots je website bezoeken en of ze de robots.txt regels respecteren.

Overweeg ook een monitoring-tool die je waarschuwt als je robots.txt onbedoeld wordt gewijzigd. Een per ongeluk verwijderde Allow-regel kan ervoor zorgen dat je van de ene op de andere dag onzichtbaar wordt in AI-antwoorden.

Handige test-methoden

Google Search Console: gebruik de URL-inspectietool om te controleren of pagina's bereikbaar zijn voor Googlebot en Google-Extended.
Serverloganalyse: zoek in je access logs naar user agents van AI-crawlers en verifieer dat ze de juiste pagina's benaderen.
Robots.txt testers: online tools zoals de robots.txt tester van Google kunnen syntax-fouten detecteren.
Handmatige verificatie: open je robots.txt in de browser (jouwdomein.nl/robots.txt) en controleer of de regels correct zijn.
Onze AEO — bibliotheekterm-scanner: test automatisch of de juiste AI-bots zijn geconfigureerd en geeft verbeteradviezen.

Robots.txt en de samenhang met andere AI-standaarden

Robots.txt staat niet op zichzelf. Het werkt samen met andere standaarden om een compleet beeld te geven aan AI-systemen. Je llms.txt bestand vertelt AI-modellen welke content het belangrijkst is. Je MCP-server biedt gestructureerde toegang tot functionaliteit. En je OAuth discovery endpoints regelen beveiligde authenticatie. Samen vormen deze elementen de complete agent-ready stack.

De toekomst: robots.txt en de agent-standaard

De robots.txt standaard evolueert. Er zijn voorstellen voor uitbreidingen die specifiek gericht zijn op AI-agents, zoals het specificeren van rate limits per bot, het aangeven van data-gebruiksrechten en het definiëren van machtiging voor geautomatiseerde acties. Door nu al bewust om te gaan met je robots.txt configuratie voor AI, ben je voorbereid op deze ontwikkelingen.

Samenvatting: de belangrijkste punten

Robots.txt is in het AI-tijdperk de eerste toegangspoort die bepaalt of AI-modellen je content kunnen lezen en citeren.
Maak bewust onderscheid tussen browsing agents (die je zichtbaarheid in AI-antwoorden bepalen) en training crawlers (die data verzamelen voor modeltraining).
Configureer elke belangrijke AI-bot afzonderlijk met gerichte Allow- en Disallow-regels in plaats van alles te blokkeren of alles toe te staan.
Voeg altijd een Llms-Txt directive toe aan je robots.txt zodat AI-crawlers je llms.txt bestand kunnen ontdekken.
Monitor en test je robots.txt regelmatig, want nieuwe AI-bots verschijnen voortdurend en een fout kan je onzichtbaar maken.

Veelgestelde vragen

Moet ik alle AI-bots toestaan op mijn website?

Niet per se. De beste aanpak is een genuanceerde strategie. Sta browsing agents toe (ChatGPT-User, PerplexityBot, ClaudeBot) zodat je in AI-antwoorden kunt verschijnen. Overweeg training crawlers te beperken als je controle wilt houden over hoe je content wordt gebruikt voor modeltraining. Blokkeer crawlers waarvan je weet dat ze geen meerwaarde bieden, zoals Bytespider.

Hoe weet ik welke AI-bots mijn website bezoeken?

De meest betrouwbare methode is het analyseren van je serverlogbestanden. Zoek naar user agents die overeenkomen met bekende AI-crawlers. Tools zoals GoAccess of AWStats kunnen dit visualiseren. Je kunt ook in Google Analytics 4 kijken naar verkeer van bekende AI-referrers, al wordt niet al het AI-verkeer daar zichtbaar.

Wat gebeurt er als ik geen robots.txt heb?

Zonder robots.txt mogen alle crawlers (inclusief AI-bots) je volledige website benaderen. Dit is niet per se slecht als je wilt dat AI-modellen je content gebruiken. Het nadeel is dat je geen controle hebt over welke secties wel of niet worden geindexeerd. Gevoelige secties zoals admin-pagina's en interne API-endpoints zijn dan ook zichtbaar.

Kan ik robots.txt gebruiken om specifieke pagina's te beschermen?

Robots.txt is een verzoek, geen afdwinging. Betrouwbare bots respecteren het, maar kwaadwillende bots niet. Gebruik robots.txt nooit als beveiligingsmaatregel voor echt gevoelige data. Combineer het met authenticatie, IP-restricties en server-side toegangscontrole voor echte beveiliging.

Hoe vaak moet ik mijn robots.txt bijwerken voor AI-bots?

Controleer je robots.txt minimaal elk kwartaal. Het AI-landschap verandert snel: nieuwe bots verschijnen, bestaande bots veranderen van naam en nieuwe standaarden worden geintroduceerd. Stel een herinnering in of neem het op in je reguliere website-onderhoudscyclus.

Robots.txt is de toegangspoort van je website. In het AI-tijdperk bepaalt het niet alleen wie binnenkomt, maar ook wie je content mag citeren in antwoorden aan miljoenen gebruikers.

Hoe scoort jouw website op AI-gereedheid?

Krijg binnen 30 seconden je AEO-score en ontdek wat je kunt verbeteren.

▸ Gratis scan

DEEL DIT ARTIKEL

LINKEDIN X