Well-known URIs voor AI: een overzicht
Wat zijn well-known URIs?
Well-known URIs zijn gestandaardiseerde paden op een webserver die specifieke metadata of configuratiebestanden hosten. Het concept is gedefinieerd in RFC 8615 en maakt het voor clients (browsers, bots, agents) mogelijk om zonder voorkennis informatie op te vragen op een voorspelbare locatie. Het bekendste voorbeeld is `/.well-known/` als prefix, maar ook bestanden op de root zoals `/robots.txt` en `/sitemap.xml` vallen functioneel onder dezelfde categorie.
Voor AI-crawlers en AI-agents zijn well-known URIs de eerste plek waar ze kijken wanneer ze een website bezoeken. Ze vormen de ontdekkingslaag: het mechanisme waarmee bots en agents te weten komen hoe ze met een website mogen en kunnen interacteren. Een website zonder de juiste well-known bestanden is als een kantoorgebouw zonder naambordje of receptie. Je bent er wel, maar niemand weet hoe je benaderd wilt worden.
De relevantie van well-known URIs voor AI-zichtbaarheid is de afgelopen twee jaar sterk gegroeid. Waar traditionele SEO zich beperkte tot robots.txt en sitemaps, vereist effectieve Answer Engine Optimization een breder arsenaal aan gestandaardiseerde bestanden die AI-bots en agents informeren over je site, je content en je voorwaarden.
Well-known URIs zijn geen optionele extra's. Ze vormen het fundament van de communicatie tussen je website en AI-systemen. Elk ontbrekend bestand is een gemiste kans om richting te geven aan hoe AI je content ontdekt, indexeert en gebruikt.
De essentiële well-known bestanden voor AI
Hieronder volgt een overzicht van de belangrijkste well-known URIs en rootbestanden die relevant zijn voor AI-crawlers en AI-agents, geordend van breed geadopteerd naar opkomend.
robots.txt (root)
Het oudste en meest universele bestand voor botcommunicatie. Robots.txt specificeert welke paden bots mogen crawlen en welke niet. In de AI-context is het cruciaal om specifieke regels op te nemen voor AI-crawlers zoals GPTBot, ClaudeBot, PerplexityBot en GoogleOther. Zie ons uitgebreide artikel over robots.txt voor AI voor de volledige implementatiegids.
sitemap.xml (root)
Je XML sitemap vertelt crawlers welke pagina's er op je site bestaan, wanneer ze voor het laatst zijn bijgewerkt en hoe belangrijk ze zijn. AI-crawlers gebruiken sitemaps om efficiënt te bepalen welke pagina's het crawlen waard zijn, vooral bij grote websites.
llms.txt (root)
Een opkomend bestand dat speciaal is ontworpen voor Large Language Models. Het biedt een gestructureerde, vereenvoudigde versie van je site-inhoud die LLM's makkelijker kunnen verwerken dan reguliere HTML. Lees meer over het formaat en de implementatie in ons artikel over llms.txt.
security.txt (/.well-known/)
RFC 9116 definieert security.txt als een standaardlocatie voor beveiligingscontactinformatie. AI-crawlers gebruiken dit bestand als een van de vertrouwenssignalen: een website met een geldig security.txt toont dat de eigenaar aandacht heeft voor security en compliance.
ai.txt (root, voorstel)
Een nieuw voorstel dat specifiek is ontworpen om AI-instructies te communiceren. Waar robots.txt beperkt is tot crawl-instructies, biedt ai.txt ruimte voor bredere richtlijnen zoals datagebruik, trainingstoestemming en licentievoorwaarden.
# Overzicht: well-known bestanden voor AI\n# Locatie en status per bestand\n\n/robots.txt # Status: universele standaard (RFC 9309)\n/sitemap.xml # Status: universele standaard\n/llms.txt # Status: opkomende standaard\n/ai.txt # Status: voorstel (draft)\n/.well-known/security.txt # Status: officieel (RFC 9116)\n/.well-known/agent-card.json # Status: voorstel (draft)\n/.well-known/bot-auth-keys.json # Status: voorstel (draft)\n/.well-known/openid-configuration # Status: officieel (OpenID Connect)\n/.well-known/mcp.json # Status: voorstel (draft)\n/.well-known/tdm-policy.json # Status: voorstel (EU TDM richtlijn)Opkomende well-known URIs voor het AI-tijdperk
Naast de gevestigde bestanden zijn er diverse nieuwe well-known URIs in ontwikkeling die specifiek gericht zijn op AI-interactie.
agent-card.json
Dit bestand publiceert de identiteit en capaciteiten van AI-agents die door een organisatie worden ingezet. Het is bedoeld voor bot-operators, niet voor website-eigenaren. Wanneer een bot je site bezoekt en zich identificeert als behorend bij een bepaalde operator, kun je de agent-card ophalen om te verifiëren wie de bot is en wat zijn intenties zijn.
bot-auth-keys.json
Onderdeel van het Web Bot Auth protocol. Dit bestand bevat de publieke sleutels waarmee websites de cryptografische identiteit van AI-bots kunnen verifiëren. Vergelijkbaar met JWKS (JSON Web Key Sets) in het OAuth-ecosysteem.
mcp.json
Het Model Context Protocol (MCP) discovery-bestand. Beschrijft welke MCP-endpoints een server aanbiedt, welke tools beschikbaar zijn en hoe AI-agents verbinding kunnen maken. Dit is direct gerelateerd aan de bredere MCP-standaard die we bespreken in ons artikel over MCP Servers.
tdm-policy.json
Gebaseerd op de EU Text and Data Mining richtlijn. Dit bestand communiceert de voorwaarden waaronder content gebruikt mag worden voor text- en datamining, inclusief AI-training. Het bevat licentie-informatie, opt-out verklaringen en contactgegevens voor commerciële licenties.
Implementatie en best practices
Het correct implementeren van well-known URIs vereist aandacht voor enkele technische details die vaak over het hoofd worden gezien.
# Nginx configuratie voor well-known URIs\n\n# Zorg dat /.well-known/ paden correct worden geserveerd\nlocation /.well-known/ {\n # Sta directe toegang toe (niet via Laravel/PHP)\n try_files $uri $uri/ =404;\n\n # Juiste content-types\n location ~ \.json$ {\n default_type application/json;\n add_header Access-Control-Allow-Origin "*";\n add_header Cache-Control "public, max-age=86400";\n }\n\n location ~ \.txt$ {\n default_type text/plain;\n add_header Cache-Control "public, max-age=86400";\n }\n}\n\n# Root-bestanden\nlocation = /robots.txt {\n default_type text/plain;\n add_header Cache-Control "public, max-age=3600";\n}\n\nlocation = /llms.txt {\n default_type text/plain;\n add_header Cache-Control "public, max-age=86400";\n}\n\nlocation = /ai.txt {\n default_type text/plain;\n add_header Cache-Control "public, max-age=86400";\n}- Serveer well-known bestanden altijd met het correcte Content-Type header (text/plain voor .txt, application/json voor .json).
- Voeg CORS-headers toe (Access-Control-Allow-Origin) zodat JavaScript-clients en AI-agents de bestanden kunnen ophalen.
- Gebruik caching-headers met een redelijke TTL (1 tot 24 uur) om serverbelasting te beperken bij frequent crawlen.
- Valideer je JSON-bestanden met een schema-validator voordat je ze deployt; een syntaxfout maakt het bestand onbruikbaar.
- Monitor 404-errors op well-known paden in je server logs om te detecteren welke AI-bots welke bestanden opvragen.
Een checklist voor je well-known configuratie
Gebruik deze checklist om te verifiëren dat je website de essentiële well-known bestanden correct aanbiedt. Elk bestand draagt bij aan hoe AI-systemen je site ontdekken en begrijpen. Combineer dit met een goed geconfigureerde security headers setup voor maximaal vertrouwen.
- Controleer of /robots.txt bestaat, syntactisch correct is en specifieke regels bevat voor AI-crawlers.
- Verifieer dat /sitemap.xml actueel is en correct verwijst naar alle indexeerbare pagina's.
- Implementeer /llms.txt met een gestructureerd overzicht van je belangrijkste content.
- Publiceer /.well-known/security.txt met je beveiligingscontactinformatie conform RFC 9116.
- Overweeg /ai.txt als je specifieke instructies wilt communiceren over AI-gebruik van je content.
- Als je AI-bots inzet: publiceer /.well-known/agent-card.json met de identiteit en intenties van je agents.
Well-known URIs zijn het visitekaartje van je website voor AI-systemen. Hoe completer en accurater ze zijn, hoe beter AI-bots en agents weten hoe ze met je content moeten omgaan.
Verdiep je verder: Robots.txt voor AI | llms.txt implementeren | Security headers voor AI-vertrouwen
Samenvatting
- Well-known URIs zijn gestandaardiseerde paden waar AI-bots en agents metadata en configuratie opvragen bij het bezoeken van je website.
- De essentiële bestanden zijn robots.txt, sitemap.xml, llms.txt en security.txt; opkomende standaarden zijn ai.txt, agent-card.json en mcp.json.
- Serveer alle bestanden met het correcte Content-Type, voeg CORS-headers toe en gebruik redelijke cache-TTL's.
- Monitor welke AI-bots welke well-known paden opvragen om inzicht te krijgen in hoe AI-systemen je site ontdekken.
- Behandel well-known URIs niet als eenmalige configuratie maar als doorlopend onderhoud: werk ze bij wanneer je site of AI-strategie verandert.
Veelgestelde vragen
Moet ik alle well-known bestanden implementeren?
Niet per se. Begin met de essentiële bestanden: robots.txt, sitemap.xml en security.txt. Deze worden door vrijwel alle AI-crawlers geraadpleegd. Voeg llms.txt toe als je AI-modellen wilt helpen je content efficiënt te verwerken. De overige bestanden (ai.txt, agent-card.json, mcp.json) zijn relevant als je actief wilt sturen op hoe AI-agents met je site interacteren. Prioriteer op basis van je specifieke doelstellingen.
Wat gebeurt er als een well-known bestand een 404 retourneert?
Een 404 op een well-known pad is niet schadelijk, maar het is een gemiste kans. AI-bots die een 404 ontvangen, gaan door met hun standaardgedrag zonder de context die het bestand had kunnen bieden. Ze blokkeren je site niet vanwege een ontbrekend bestand, maar je hebt geen invloed op hoe ze je content verwerken.
Hoe vaak moet ik mijn well-known bestanden bijwerken?
Robots.txt en sitemap.xml moeten altijd actueel zijn; werk ze bij telkens wanneer je sitestructuur verandert. Security.txt moet je jaarlijks vernieuwen (het heeft een expiry-veld). Llms.txt werk je bij wanneer je belangrijke nieuwe content toevoegt. De overige bestanden zijn relatief stabiel en hoeven alleen bijgewerkt te worden als je beleid of configuratie verandert.
Kunnen well-known bestanden mijn SEO beïnvloeden?
Indirect wel. Een correct geconfigureerd robots.txt en een actuele sitemap dragen direct bij aan je traditionele SEO. Security.txt en de AI-specifieke bestanden beïnvloeden je AI-zichtbaarheid, wat steeds meer overlap vertoont met traditionele SEO naarmate Google AI Overviews en vergelijkbare features uitbreidt.
Moet ik well-known bestanden op alle subdomeinen publiceren?
Ja, elk subdomein moet zijn eigen well-known bestanden hebben als het een aparte website of applicatie host. AI-crawlers behandelen subdomeinen als afzonderlijke entiteiten. Een robots.txt op example.nl geldt niet voor blog.example.nl. Als je subdomeinen centraal beheert, zorg dan voor een automatisch deploymentproces dat de bestanden synchroniseert.
De ontdekkingslaag van het web groeit mee met de complexiteit van zijn bezoekers. Well-known URIs waren ooit alleen voor bots; nu zijn ze de taal waarmee je praat met AI.
Hoe scoort jouw website op AI-gereedheid?
Krijg binnen 30 seconden je AEO-score en ontdek wat je kunt verbeteren.