ai.txt: het nieuwe voorstel voor AI-instructies
Waarom robots.txt niet genoeg is voor AI
Robots.txt is een standaard uit 1994 die oorspronkelijk is ontworpen voor webcrawlers die zoekindexen opbouwen. Het biedt twee basisinstructies: "je mag dit pad crawlen" en "je mag dit pad niet crawlen." In een tijdperk van eenvoudige zoekbots was dat voldoende. Maar AI-systemen zijn fundamenteel anders dan traditionele zoekcrawlers en stellen vragen die robots.txt niet kan beantwoorden.
Mag een AI-model mijn content gebruiken voor training? Mag het mijn teksten citeren in antwoorden? Moet er bronvermelding worden toegevoegd? Welke secties van mijn site bevatten de meest gezaghebbende content? Geen van deze vragen past in het crawl/niet-crawl model van robots.txt. Website-eigenaren hebben behoefte aan een rijker communicatiekanaal met AI-systemen, en dat is precies wat ai.txt beoogt te bieden.
Het ai.txt voorstel, dat in 2025 is geïntroduceerd door een coalitie van contentuitgevers, AI-bedrijven en webstandaardorganisaties, definieert een nieuw bestand op de root van een website dat specifiek is ontworpen voor communicatie met AI-systemen. Het is geen vervanging voor robots.txt, maar een aanvulling die de beperkingen ervan adresseert.
ai.txt is een voorstel in ontwikkeling, geen geratificeerde standaard. De specificatie evolueert actief en kan wijzigen. Desondanks implementeren meerdere AI-providers al ondersteuning, waardoor vroege adoptie voordelen biedt.
De structuur van ai.txt
Het ai.txt bestand gebruikt een sectiegebaseerd formaat dat intuïtief leesbaar is voor zowel mensen als machines. Elke sectie begint met een header tussen vierkante haken en bevat sleutel-waarde paren die instructies definiëren.
# ai.txt - AI-instructies voor example.nl\n# Laatst bijgewerkt: 2026-04-01\n\n[general]\nai_training = no\nai_inference = yes\nattribution_required = yes\npreferred_citation_format = "Bron: {title} - {url}"\ncontact = ai-policy@example.nl\nlicense_url = https://example.nl/ai-license\n\n[content]\nprimary_language = nl\nalternate_language = en\nauthoritative_sections = /blog, /kennisbank, /onderzoek\nnon_authoritative_sections = /archief, /legacy\npreferred_format = html\nllms_txt = /llms.txt\n\n[crawling]\nmax_requests_per_minute = 20\npreferred_hours = 02:00-06:00 UTC\nrespect_robots_txt = required\ncache_duration = 6h\n\n[agents]\na2a_endpoint = /api/a2a\nmcp_endpoint = /.well-known/mcp.json\nagent_card_url = /.well-known/agent-card.json\nauthentication = web_bot_auth\n\n[legal]\ntdm_reservation = yes\ntdm_policy = /.well-known/tdm-policy.json\njurisdiction = EU\ngdpr_contact = privacy@example.nlHet bestand is opgebouwd uit vijf secties. De `[general]` sectie bevat de basisinstructies voor AI-gebruik. De `[content]` sectie beschrijft de inhoudelijke structuur. De `[crawling]` sectie definieert technische crawlparameters. De `[agents]` sectie verwijst naar endpoints voor AI-agents. De `[legal]` sectie bevat juridische en compliance-informatie.
De [general] sectie in detail
De general sectie is het hart van ai.txt. Hier definieer je de fundamentele regels voor hoe AI-systemen je content mogen gebruiken.
- `ai_training`: yes/no. Geeft aan of je content gebruikt mag worden voor het trainen van AI-modellen. Dit is het meest impactvolle veld.
- `ai_inference`: yes/no. Geeft aan of AI-modellen je content mogen ophalen en citeren in real-time antwoorden (retrieval-augmented generation).
- `attribution_required`: yes/no. Specificeert of bronvermelding verplicht is wanneer je content wordt geciteerd.
- `preferred_citation_format`: een template die aangeeft hoe je geciteerd wilt worden. Variabelen als {title}, {url} en {author} worden ingevuld door het AI-systeem.
- `contact`: een e-mailadres voor vragen over je AI-beleid.
- `license_url`: een link naar je volledige licentievoorwaarden.
Het onderscheid tussen training en inferentie is cruciaal en sluit aan bij de ontwikkelingen rondom TDM-headers. Waar TDM-headers dit onderscheid als HTTP-header communiceren, biedt ai.txt dezelfde informatie als persistent bestand. Beide mechanismen versterken elkaar: een AI-systeem dat je site bezoekt, controleert zowel de TDM-headers als ai.txt en gebruikt de meest specifieke instructie. Lees meer over hoe je llms.txt combineert met ai.txt voor een compleet communicatiemodel.
De [content] en [crawling] secties
De content sectie helpt AI-systemen om je site beter te begrijpen en de meest relevante content te identificeren.
[content]\n# Welke secties bevatten je meest gezaghebbende content?\nauthoritative_sections = /blog, /kennisbank, /onderzoek\n\n# Welke secties zijn verouderd of minder betrouwbaar?\nnon_authoritative_sections = /archief, /legacy\n\n# In welk formaat lever je content bij voorkeur aan?\n# html = reguliere HTML-pagina's\n# markdown = Markdown-versie beschikbaar\n# structured = JSON-LD of gestructureerde data beschikbaar\npreferred_format = html\n\n# Verwijzing naar je llms.txt voor AI-specifieke content\nllms_txt = /llms.txt\n\n[crawling]\n# Maximaal aantal verzoeken per minuut\nmax_requests_per_minute = 20\n\n# Voorkeursuren voor intensief crawlen (buiten piekuren)\npreferred_hours = 02:00-06:00 UTC\n\n# Hoe lang mogen AI-systemen je content cachen?\ncache_duration = 6h\n\n# Is het respecteren van robots.txt verplicht of optioneel?\nrespect_robots_txt = requiredHet `authoritative_sections` veld is bijzonder krachtig. Hiermee vertel je AI-modellen welke delen van je site de meest betrouwbare, actuele en citeerbare content bevatten. Dit helpt AI-modellen om bij twijfel je beste content te citeren in plaats van een willekeurige pagina.
De [agents] en [legal] secties
De agents sectie fungeert als een ontdekkingslaag voor AI-agents die verder gaan dan alleen content ophalen. Het verwijst naar endpoints voor het A2A Protocol, MCP-servers en authenticatiemechanismen. Dit maakt ai.txt tot een centraal startpunt voor elke vorm van AI-interactie met je site.
De legal sectie integreert met bestaande juridische mechanismen. Het `tdm_reservation` veld communiceert dezelfde informatie als de TDM-Reservation HTTP-header, maar dan als persistent bestand dat AI-systemen kunnen raadplegen zonder eerst een pagina op te vragen. Het `jurisdiction` veld verduidelijkt onder welk rechtsstelsel je opereert, wat relevant is voor de interpretatie van je instructies.
ai.txt implementeren op je website
De implementatie is eenvoudig: maak een tekstbestand aan op de root van je domein. Let op de correcte bestandsindeling en serveer het met het juiste Content-Type.
# Stap 1: Maak het bestand aan\n# Locatie: /ai.txt (root van je domein)\n\n# Stap 2: Serveer met correct Content-Type\n# Nginx configuratie:\nlocation = /ai.txt {\n default_type text/plain;\n charset utf-8;\n add_header Cache-Control "public, max-age=86400";\n add_header X-Robots-Tag "noindex";\n}\n\n# Stap 3: Link vanuit je robots.txt (optioneel maar aanbevolen)\n# Voeg toe aan robots.txt:\nAI-Policy: /ai.txt\n\n# Stap 4: Link vanuit je HTML head (optioneel)\n# <link rel="ai-policy" href="/ai.txt" />\n\n# Stap 5: Verifieer\ncurl -I https://example.nl/ai.txt\n# Verwacht: Content-Type: text/plain; charset=utf-8Voeg een X-Robots-Tag: noindex header toe aan je ai.txt response. Het bestand is bedoeld voor machines, niet voor zoekmachines om te indexeren en als zoekresultaat te tonen.
ai.txt in de context van het bredere ecosysteem
ai.txt staat niet op zichzelf maar vormt onderdeel van een groeiend ecosysteem van standaarden die samen de communicatielaag tussen websites en AI-systemen vormen.
Robots.txt definieert crawlregels. Llms.txt biedt gestructureerde content voor LLM's. TDM-headers communiceren juridische voorwaarden. Security headers bouwen vertrouwen op. Agent Cards identificeren bots. En ai.txt fungeert als de overkoepelende instructieset die al deze elementen verbindt en aanvult. Een AI-systeem dat je site bezoekt, kan ai.txt als startpunt gebruiken om te ontdekken welke andere bestanden en endpoints beschikbaar zijn.
- AI-systeem bezoekt /ai.txt als eerste ontdekkingsstap.
- Leest de [general] sectie voor basisregels over training en inferentie.
- Volgt de verwijzing naar /llms.txt voor gestructureerde content.
- Controleert de [crawling] sectie voor rate-limits en voorkeursuren.
- Raadpleegt de [agents] sectie voor beschikbare A2A en MCP endpoints.
- Verifieert de [legal] sectie en het TDM-beleid voor juridische compliance.
Robots.txt was het eerste gesprek tussen websites en bots. ai.txt is de evolutie naar een volwassen dialoog met AI-systemen die niet alleen crawlen, maar begrijpen, citeren en handelen.
Verdiep je verder: Robots.txt voor AI-bots | llms.txt implementeren | Het A2A Protocol voor agents
Samenvatting
- ai.txt is een voorstel voor een nieuw bestandsformaat dat website-eigenaren een gestandaardiseerde manier biedt om instructies te communiceren aan AI-systemen.
- Het bestand is opgebouwd uit vijf secties: general (basisregels), content (inhoudsstructuur), crawling (technische parameters), agents (endpoints) en legal (juridisch).
- Het cruciale onderscheid tussen training en inferentie wordt expliciet gemaakt, waardoor je AI-citatie kunt toestaan terwijl je training verbiedt.
- ai.txt fungeert als centraal startpunt dat verwijst naar andere standaarden zoals llms.txt, TDM-beleid, MCP-endpoints en Agent Cards.
- De implementatie is eenvoudig: een tekstbestand op de root van je domein, geserveerd met het correcte Content-Type en optioneel gelinkt vanuit robots.txt.
Veelgestelde vragen
Is ai.txt al een officiële standaard?
Nee, ai.txt bevindt zich in de voorstelfase. Er is een community specification gepubliceerd en meerdere AI-providers (waaronder Perplexity en Anthropic) experimenteren met ondersteuning. Het pad naar een officiële standaard via het W3C of IETF is gestart maar nog niet afgerond. Desondanks is de risico van vroege adoptie laag: het bestand veroorzaakt geen schade als het niet wordt gelezen en biedt voordelen zodra ondersteuning groeit.
Vervangt ai.txt robots.txt?
Nee, ai.txt is een aanvulling op robots.txt, geen vervanging. Robots.txt blijft het primaire mechanisme voor crawl-instructies en wordt universeel ondersteund. ai.txt voegt een communicatielaag toe die robots.txt niet kan bieden: instructies over datagebruik, trainingstoestemming, citatievoorkeuren en agent-endpoints. Gebruik beide bestanden samen voor optimale communicatie met AI-systemen.
Wat als een AI-systeem mijn ai.txt negeert?
In de huidige situatie is ai.txt, net als robots.txt, een verzoek zonder directe juridische afdwingbaarheid (in tegenstelling tot TDM-headers in de EU). AI-systemen die ai.txt negeren, schenden geen wet, maar ze handelen in strijd met een expliciete wens van de site-eigenaar. Naarmate de standaard breder wordt geadopteerd en eventueel juridische backing krijgt, kan het negeren ervan juridische consequenties krijgen.
Kan ik ai.txt dynamisch genereren?
Ja, en dat kan nuttig zijn voor sites die per sectie verschillende regels hanteren. Je kunt ai.txt genereren via een server-side script (bijvoorbeeld een Laravel route) dat de instructies opbouwt op basis van je configuratie. Zorg er wel voor dat het resultaat cacheable is en consistent blijft, zodat AI-systemen niet bij elk verzoek een ander antwoord krijgen.
Hoeveel websites gebruiken ai.txt al?
Exacte cijfers zijn lastig te bepalen, maar een scan van de Alexa top 10.000 in maart 2026 toonde dat ongeveer 3% van de sites een ai.txt bestand had. Ter vergelijking: llms.txt was aanwezig op ongeveer 5% en security.txt op ongeveer 12%. De adoptie groeit snel, vooral onder mediabedrijven, uitgevers en technologiebedrijven die actief bezig zijn met hun AI-strategie.
ai.txt is het antwoord op een simpele vraag: als AI de belangrijkste lezer van je website wordt, hoe vertel je AI dan wat je van hem verwacht? Met een duidelijk, gestandaardiseerd instructiebestand.
Hoe scoort jouw website op AI-gereedheid?
Krijg binnen 30 seconden je AEO-score en ontdek wat je kunt verbeteren.