AEO & AI SEO 4 min leestijd

AI-bot Rules

Regels in robots.txt en HTTP-headers waarmee je het gedrag van AI-crawlers stuurt.

Bas Vermeer SEO/AEO Specialist

AI-bot rules zijn instructies waarmee website-eigenaren het gedrag van AI-crawlers kunnen sturen. Dit gebeurt primair via robots.txt — bibliotheekterm, maar ook via HTTP-headers en meta-tags. Je bepaalt welke AI-bots je content mogen indexeren, scrapen of gebruiken voor training.

Bekende AI-bots

De belangrijkste AI-bots zijn: GPTBot (OpenAI), ClaudeBot (Anthropic), PerplexityBot (Perplexity), Google-Extended (Google AI training), Applebot-Extended (Apple Intelligence), CCBot (Common Crawl), en Amazonbot. Elke bot heeft een eigen user-agent string.

Strategische keuzes

Blokkeer je AI-bots volledig, of sta je selectief toe? Veel bedrijven kiezen een middenweg: ze staan crawling — bibliotheekterm toe voor AI-zichtbaarheid maar blokkeren training-specifieke bots. De juiste strategie hangt af van je doelen: wil je geciteerd worden door AI, of wil je je content beschermen?

Referentietabel: bekende AI-bots

User-agent	Eigenaar	Doel	Respecteert robots.txt
GPTBot	OpenAI	Webcrawling voor ChatGPT en AI-producten	Ja
OAI-SearchBot	OpenAI	ChatGPT Search (realtime zoekresultaten)	Ja
ChatGPT-User	OpenAI	Pagina's ophalen als gebruiker een URL deelt in ChatGPT	Ja
ClaudeBot	Anthropic	Training en verbetering van Claude-modellen	Ja
PerplexityBot	Perplexity AI	Realtime zoekresultaten in Perplexity	Ja
Google-Extended	Google	AI-training (Gemini), niet voor reguliere Google Search	Ja
Googlebot	Google	Reguliere zoekindex (incl. AI Overviews)	Ja
Applebot-Extended	Apple	Apple Intelligence en Siri-training	Ja
Applebot	Apple	Siri en Spotlight suggesties	Ja
CCBot	Common Crawl	Open dataset, gebruikt door vele AI-modellen voor training	Ja
Amazonbot	Amazon	Alexa antwoorden en Amazon AI-producten	Ja
Bytespider	ByteDance	TikTok zoekfunctie en AI-training	Gedeeltelijk
FacebookBot	Meta	Content preview en AI-training	Ja
Diffbot	Diffbot	Gestructureerde data — bibliotheekterm-extractie voor AI Knowledge Graphs	Ja
cohere-ai	Cohere	Training van Cohere's taalmodellen	Ja
anthropic-ai	Anthropic	Webresearch voor Claude	Ja

Robots.txt templates voor AI-bots

Strategie 1: Alles toestaan (maximale AI-zichtbaarheid)

# Sta alle AI-bots toe voor maximale zichtbaarheid
# in AI-antwoorden en zoekresultaten

User-agent: GPTBot
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Google-Extended
Allow: /

User-agent: Applebot-Extended
Allow: /

User-agent: CCBot
Allow: /

User-agent: Amazonbot
Allow: /

Strategie 2: Selectief toestaan (balans zichtbaarheid/bescherming)

# Sta AI-zoekmachines toe, blokkeer training-bots
# Balans tussen zichtbaarheid in AI-antwoorden
# en bescherming tegen ongeautoriseerde training

# Toestaan: bots die je content citeren met bronvermelding
User-agent: GPTBot
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Amazonbot
Allow: /

# Blokkeren: bots die primair trainen zonder citatie
User-agent: Google-Extended
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Bytespider
Disallow: /

Strategie 3: Alles blokkeren (maximale contentbescherming)

# Blokkeer alle bekende AI-bots
# Let op: dit vermindert je zichtbaarheid
# in AI-antwoorden significant

User-agent: GPTBot
Disallow: /

User-agent: ChatGPT-User
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: PerplexityBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: Applebot-Extended
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Amazonbot
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: cohere-ai
Disallow: /

User-agent: Diffbot
Disallow: /

Wat checkt onze scanner?

De scanner analyseert je robots.txt op regels voor AI-bots. We controleren welke AI-crawlers je toestaat en welke je blokkeert, en of je een bewuste strategie hebt (in plaats van geen regels). Dit is onderdeel van zowel de AEO — bibliotheekterm-score als de Agent-Readiness score.

Veelgestelde vragen

Moet ik AI-bots toestaan of blokkeren?

Dit hangt af van je doelen. Als je geciteerd wilt worden in AI-antwoorden (AEO), sta dan minimaal GPTBot, PerplexityBot en ClaudeBot toe. Als je je content wilt beschermen tegen AI-training zonder citatie, blokkeer dan Google-Extended, CCBot en Bytespider. De meeste bedrijven kiezen een middenweg: zoek-gerelateerde bots toestaan, training-only bots blokkeren.

Respecteren AI-bots echt robots.txt?

De grote AI-bedrijven (OpenAI, Anthropic, Google, Perplexity) respecteren robots.txt. Dit is ook in hun eigen belang: websites die AI-bots blokkeren omdat ze robots.txt negeren, zouden het ecosysteem schaden. Kleinere of minder bekende bots zijn minder betrouwbaar. Robots.txt is een conventie, geen juridische bescherming.

Kan ik AI-bots blokkeren met HTTP-headers in plaats van robots.txt?

Ja. Je kunt de X-Robots-Tag HTTP-header gebruiken met directives als "noai" of "noimageai" voor specifieke pagina's. Dit geeft meer granulaire controle dan robots.txt, dat alleen werkt op pad-niveau. De meta-tag <meta name="robots" content="noai"> werkt vergelijkbaar op pagina-niveau.

Wat als ik geen AI-bot regels in mijn robots.txt heb?

Als je geen specifieke regels hebt voor AI-bots, volgen ze de standaard User-agent: * regels. Als je daar ook geen restricties hebt, mogen alle bots (inclusief AI-bots) je hele site crawlen. Het is verstandig om een bewuste keuze te maken en die vast te leggen in je robots.txt.

Veranderen AI-bot user agents regelmatig?

De grote AI-bedrijven documenteren hun user agents en geven wijzigingen vooraf aan. Wel komen er regelmatig nieuwe bots bij naarmate meer bedrijven AI-producten lanceren. Het is verstandig om je robots.txt minimaal elk kwartaal te reviewen en nieuwe AI-bots toe te voegen aan je beleid.

AI-bot Rules

Bekende AI-bots

Strategische keuzes

Referentietabel: bekende AI-bots

Robots.txt templates voor AI-bots

Strategie 1: Alles toestaan (maximale AI-zichtbaarheid)

Strategie 2: Selectief toestaan (balans zichtbaarheid/bescherming)

Strategie 3: Alles blokkeren (maximale contentbescherming)

Wat checkt onze scanner?

Veelgestelde vragen

GERELATEERDE TERMEN

Answer Engine Optimization

Crawling

Robots.txt

llms.txt

OAuth Discovery

Web Agent Protocol

GERELATEERDE SCANNER-CHECKS

Test je website