KERN SEO 4 min leestijd

Crawling

Het geautomatiseerd doorzoeken van websites door zoekmachines en AI-bots om content te ontdekken.

Reinier Sierag Oprichter Kobalt

Crawling is het proces waarbij zoekmachines (en AI-bots) geautomatiseerd het web verkennen door links te volgen van pagina naar pagina. De crawler (ook wel spider of bot) downloadt pagina's, volgt de links die erop staan, en voegt nieuwe URL's toe aan de crawl-wachtrij.

Crawlbudget

Elke website krijgt een beperkt crawlbudget: het aantal pagina's dat een bot in een bepaalde periode bezoekt. Bij grote websites is het belangrijk om dit budget te optimaliseren door irrelevante pagina's te blokkeren via robots.txt — bibliotheekterm en een duidelijke sitemapstructuur aan te bieden.

AI-bots en crawling

Naast Googlebot crawlen nu ook AI-bots zoals GPTBot, ClaudeBot en PerplexityBot het web. Deze bots hebben hun eigen crawlpatronen en respecteren (meestal) robots.txt. Het is belangrijk om te weten welke bots je site bezoeken en hoe je ze kunt sturen.

Crawlbudget optimaliseren: 5 tips

Een efficienter crawlbudget betekent dat zoekmachines je belangrijkste pagina's sneller vinden en indexeren. Hier zijn vijf concrete tips:

Blokkeer onbelangrijke pagina's in robots.txt: Voorkom dat crawlers tijd besteden aan pagina's die geen SEO — bibliotheekterm-waarde hebben, zoals interne zoekresultaten, filterpagina's, login-pagina's en /wp-admin/. Elke gecrawlde maar niet-waardevolle pagina gaat ten koste van je budget voor belangrijke pagina's.
Repareer of verwijder soft 404's en redirect-ketens: Pagina's die een 200-status teruggeven maar geen echte content bevatten (soft 404's) verspillen crawlbudget. Hetzelfde geldt voor ketens van opeenvolgende redirects (A → B → C → D). Laat redirects altijd direct naar de einddoel-URL wijzen.
Houd je XML-sitemap — bibliotheekterm actueel: Een schone sitemap die alleen indexeerbare, canonieke pagina's bevat, helpt crawlers efficient te navigeren. Verwijder pagina's met noindex, redirects of 404-statuscodes — bibliotheekterm uit je sitemap.
Verbeter server-responstijd: Een trage server beperkt het aantal pagina's dat een crawler per sessie kan ophalen. Optimaliseer je hosting, implementeer caching en minimaliseer TTFB (Time to First Byte) om crawlers meer pagina's per bezoek te laten verwerken.
Gebruik interne links — bibliotheekterm strategisch: Zorg dat je belangrijkste pagina's goed gelinkt zijn vanuit je navigatie en content. Pagina's die diep begraven zijn in je site-architectuur (meer dan 4 klikken vanaf de homepage) worden minder frequent gecrawld.

Server logs analyseren: stappenplan

Server logs geven je directe inzicht in hoe crawlers je site bezoeken. Zo analyseer je ze:

Toegang tot logs regelen: Vraag je hosting-provider om access logs (Apache/Nginx). Bij managed hosting kun je vaak logbestanden downloaden via het controlepaneel. De logs bevatten elke HTTP-request inclusief user-agent, URL, statuscode en tijdstempel.
Filter op bot-verkeer: Zoek in de logs naar bekende user-agents: "Googlebot", "bingbot", "GPTBot", "ClaudeBot", "PerplexityBot". Dit filtert menselijk verkeer eruit en toont alleen crawleractiviteit.
Analyseer crawlpatronen: Bekijk welke pagina's het vaakst gecrawld worden, welke zelden of nooit bezocht worden, en of crawlers vastlopen in oneindige loops (bijvoorbeeld gefacetteerde navigatie of kalender-URL's).
Controleer statuscodes: Let op pagina's die 404, 500 of redirect-statuscodes teruggeven aan crawlers. Dit zijn directe verbeterpunten.
Gebruik tools voor analyse: Voor grote logbestanden zijn tools als Screaming Frog Log Analyzer, Botify of JetOctopus effectief. Voor kleinere sites volstaat het importeren van logs in een spreadsheet en filteren op user-agent.

Veelgestelde vragen

Hoe weet ik hoe vaak Google mijn site crawlt?

In Google Search Console vind je onder "Instellingen" > "Crawlstatistieken" een overzicht van het crawlgedrag: hoeveel verzoeken per dag, gemiddelde responstijd en crawlfouten. Daarnaast geven je server logs de meest gedetailleerde informatie over crawlfrequentie per pagina.

Kan ik Google vragen om mijn site vaker te crawlen?

Niet direct. Google bepaalt zelf de crawlfrequentie op basis van de grootte, updatefrequentie en autoriteit van je site. Je kunt wel een individuele URL indienen via de URL-inspectietool in Search Console. Voor structurele verbetering: publiceer regelmatig verse content, houd je sitemap actueel en verbeter je server-performance.

Wat is het verschil tussen crawling en indexering?

Crawling is het ophalen en downloaden van pagina's. Indexering is het analyseren en opslaan van die content in de zoekmachine-database. Een pagina kan gecrawld worden zonder geindexeerd te worden, bijvoorbeeld als de content van te lage kwaliteit is of een noindex-tag bevat. Crawling is de eerste stap; indexering de tweede.

Moet ik AI-bots blokkeren of toestaan?

Dat hangt af van je strategie. Als je wilt dat AI-modellen je content citeren in hun antwoorden, moet je AI-bots toestaan. Als je je content wilt beschermen tegen gebruik in AI-training, kun je specifieke bots blokkeren via robots.txt. Een middenweg is selectief toestaan: search-gerelateerde AI-bots toelaten (PerplexityBot, GoogleOther) en training-bots blokkeren (GPTBot, CCBot).

Hoeveel crawlbudget heeft mijn site nodig?

Voor de meeste kleine tot middelgrote websites (onder de 10.000 pagina's) is crawlbudget geen probleem. Google crawlt doorgaans al je pagina's. Crawlbudget-optimalisatie wordt pas cruciaal bij grote sites met honderdduizenden pagina's, zoals e-commerce sites met veel productpagina's of sites met dynamisch gegenereerde URL's.