AI-bot Rules
Regels in robots.txt en HTTP-headers waarmee je het gedrag van AI-crawlers stuurt.
AI-bot rules zijn instructies waarmee website-eigenaren het gedrag van AI-crawlers kunnen sturen. Dit gebeurt primair via robots.txt — bibliotheekterm, maar ook via HTTP-headers en meta-tags. Je bepaalt welke AI-bots je content mogen indexeren, scrapen of gebruiken voor training.
Bekende AI-bots
De belangrijkste AI-bots zijn: GPTBot (OpenAI), ClaudeBot (Anthropic), PerplexityBot (Perplexity), Google-Extended (Google AI training), Applebot-Extended (Apple Intelligence), CCBot (Common Crawl), en Amazonbot. Elke bot heeft een eigen user-agent string.
Strategische keuzes
Blokkeer je AI-bots volledig, of sta je selectief toe? Veel bedrijven kiezen een middenweg: ze staan crawling — bibliotheekterm toe voor AI-zichtbaarheid maar blokkeren training-specifieke bots. De juiste strategie hangt af van je doelen: wil je geciteerd worden door AI, of wil je je content beschermen?
Referentietabel: bekende AI-bots
| User-agent | Eigenaar | Doel | Respecteert robots.txt |
|---|---|---|---|
| GPTBot | OpenAI | Webcrawling voor ChatGPT en AI-producten | Ja |
| OAI-SearchBot | OpenAI | ChatGPT Search (realtime zoekresultaten) | Ja |
| ChatGPT-User | OpenAI | Pagina's ophalen als gebruiker een URL deelt in ChatGPT | Ja |
| ClaudeBot | Anthropic | Training en verbetering van Claude-modellen | Ja |
| PerplexityBot | Perplexity AI | Realtime zoekresultaten in Perplexity | Ja |
| Google-Extended | AI-training (Gemini), niet voor reguliere Google Search | Ja | |
| Googlebot | Reguliere zoekindex (incl. AI Overviews) | Ja | |
| Applebot-Extended | Apple | Apple Intelligence en Siri-training | Ja |
| Applebot | Apple | Siri en Spotlight suggesties | Ja |
| CCBot | Common Crawl | Open dataset, gebruikt door vele AI-modellen voor training | Ja |
| Amazonbot | Amazon | Alexa antwoorden en Amazon AI-producten | Ja |
| Bytespider | ByteDance | TikTok zoekfunctie en AI-training | Gedeeltelijk |
| FacebookBot | Meta | Content preview en AI-training | Ja |
| Diffbot | Diffbot | Gestructureerde data — bibliotheekterm-extractie voor AI Knowledge Graphs | Ja |
| cohere-ai | Cohere | Training van Cohere's taalmodellen | Ja |
| anthropic-ai | Anthropic | Webresearch voor Claude | Ja |
Robots.txt templates voor AI-bots
Strategie 1: Alles toestaan (maximale AI-zichtbaarheid)
# Sta alle AI-bots toe voor maximale zichtbaarheid
# in AI-antwoorden en zoekresultaten
User-agent: GPTBot
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: Google-Extended
Allow: /
User-agent: Applebot-Extended
Allow: /
User-agent: CCBot
Allow: /
User-agent: Amazonbot
Allow: /
Strategie 2: Selectief toestaan (balans zichtbaarheid/bescherming)
# Sta AI-zoekmachines toe, blokkeer training-bots
# Balans tussen zichtbaarheid in AI-antwoorden
# en bescherming tegen ongeautoriseerde training
# Toestaan: bots die je content citeren met bronvermelding
User-agent: GPTBot
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: Amazonbot
Allow: /
# Blokkeren: bots die primair trainen zonder citatie
User-agent: Google-Extended
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: Bytespider
Disallow: /
Strategie 3: Alles blokkeren (maximale contentbescherming)
# Blokkeer alle bekende AI-bots
# Let op: dit vermindert je zichtbaarheid
# in AI-antwoorden significant
User-agent: GPTBot
Disallow: /
User-agent: ChatGPT-User
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: PerplexityBot
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: Applebot-Extended
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: Amazonbot
Disallow: /
User-agent: Bytespider
Disallow: /
User-agent: cohere-ai
Disallow: /
User-agent: Diffbot
Disallow: /
Wat checkt onze scanner?
De scanner analyseert je robots.txt op regels voor AI-bots. We controleren welke AI-crawlers je toestaat en welke je blokkeert, en of je een bewuste strategie hebt (in plaats van geen regels). Dit is onderdeel van zowel de AEO — bibliotheekterm-score als de Agent-Readiness score.
Veelgestelde vragen
Moet ik AI-bots toestaan of blokkeren?
Dit hangt af van je doelen. Als je geciteerd wilt worden in AI-antwoorden (AEO), sta dan minimaal GPTBot, PerplexityBot en ClaudeBot toe. Als je je content wilt beschermen tegen AI-training zonder citatie, blokkeer dan Google-Extended, CCBot en Bytespider. De meeste bedrijven kiezen een middenweg: zoek-gerelateerde bots toestaan, training-only bots blokkeren.
Respecteren AI-bots echt robots.txt?
De grote AI-bedrijven (OpenAI, Anthropic, Google, Perplexity) respecteren robots.txt. Dit is ook in hun eigen belang: websites die AI-bots blokkeren omdat ze robots.txt negeren, zouden het ecosysteem schaden. Kleinere of minder bekende bots zijn minder betrouwbaar. Robots.txt is een conventie, geen juridische bescherming.
Kan ik AI-bots blokkeren met HTTP-headers in plaats van robots.txt?
Ja. Je kunt de X-Robots-Tag HTTP-header gebruiken met directives als "noai" of "noimageai" voor specifieke pagina's. Dit geeft meer granulaire controle dan robots.txt, dat alleen werkt op pad-niveau. De meta-tag <meta name="robots" content="noai"> werkt vergelijkbaar op pagina-niveau.
Wat als ik geen AI-bot regels in mijn robots.txt heb?
Als je geen specifieke regels hebt voor AI-bots, volgen ze de standaard User-agent: * regels. Als je daar ook geen restricties hebt, mogen alle bots (inclusief AI-bots) je hele site crawlen. Het is verstandig om een bewuste keuze te maken en die vast te leggen in je robots.txt.
Veranderen AI-bot user agents regelmatig?
De grote AI-bedrijven documenteren hun user agents en geven wijzigingen vooraf aan. Wel komen er regelmatig nieuwe bots bij naarmate meer bedrijven AI-producten lanceren. Het is verstandig om je robots.txt minimaal elk kwartaal te reviewen en nieuwe AI-bots toe te voegen aan je beleid.