AEO & AI SEO 4 min leestijd

Vector Embedding

Een numerieke representatie van tekst die AI-modellen gebruiken om semantische betekenis te begrijpen.

Bas Vermeer SEO/AEO Specialist

Een vector embedding is een numerieke representatie van tekst (of ander type data) in een multidimensionale ruimte. AI-modellen zetten woorden, zinnen of hele documenten om in vectoren (lijsten van getallen) die hun betekenis vastleggen. Semantisch vergelijkbare teksten liggen dicht bij elkaar in deze ruimte.

Hoe werken embeddings?

Wanneer een AI-model je content verwerkt, wordt deze omgezet in een vector. Bij het beantwoorden van vragen wordt de vraag ook omgezet in een vector, en zoekt het systeem naar content-vectoren die het dichtst bij de vraag-vector liggen. Dit is de basis van semantisch zoeken.

Embeddings en AEO

Om goed "gevectoriseerd" te worden, moet je content semantisch helder zijn. Gebruik duidelijke taal, vermijd ambiguïteit, en zorg dat de belangrijkste concepten expliciet worden benoemd. Content die semantisch sterk overeenkomt met gebruikersvragen wordt vaker geselecteerd.

Hoe een zin een vector wordt

Een vereenvoudigd voorbeeld van hoe tekst wordt omgezet in een vector:

Invoer: "Schema.org helpt zoekmachines je content te begrijpen"

Stap 1: Tokenisatie
  ["Schema.org", "helpt", "zoekmachines", "je", "content", "te", "begrijpen"]

Stap 2: Embedding model verwerkt de tokens
  Het model (bijv. text-embedding-3-small) analyseert de
  semantische relaties tussen alle tokens in de context.

Stap 3: Output vector (1536 dimensies, hier sterk vereenvoudigd)
  [0.023, -0.041, 0.089, 0.012, -0.067, 0.034, ...]

Semantisch vergelijkbare zinnen krijgen vergelijkbare vectoren:
  "Structured data maakt je website begrijpelijk voor Google"
  [0.021, -0.038, 0.091, 0.015, -0.062, 0.031, ...]
  Cosine similarity: 0.94 (zeer vergelijkbaar)

  "Het weer in Amsterdam is vandaag zonnig"
  [-0.056, 0.072, -0.013, 0.044, 0.028, -0.089, ...]
  Cosine similarity: 0.12 (niet vergelijkbaar)

Praktische tips: content die goed embedt

Wees expliciet over je onderwerp. Benoem het kernonderwerp in de eerste zin van elke sectie. Een embedding model baseert de vector op alle woorden, dus hoe duidelijker het onderwerp wordt benoemd, hoe preciezer de vector.
Gebruik synoniemen en gerelateerde termen. Schrijf niet alleen "SEO — bibliotheekterm" maar ook "zoekmachineoptimalisatie" en "vindbaarheid in Google". Dit vergroot de kans dat je content matcht met verschillende formuleringen van dezelfde vraag.
Schrijf in zelfstandige paragrafen. Elke paragraaf moet op zichzelf begrijpelijk zijn. RAG — bibliotheekterm-systemen halen vaak losse fragmenten op, niet hele pagina's.
Vermijd vaag taalgebruik. "Dit is belangrijk" of "er zijn verschillende opties" embedt slecht. Specificeer: "Schema.org markup — bibliotheekterm verbetert de kans op rich results — bibliotheekterm met 40%".
Structureer met duidelijke headings. Headings worden zwaarder gewogen in veel embedding-systemen. Maak ze beschrijvend en specifiek.
Gebruik lijsten voor opsommingen. Gestructureerde informatie (lijsten, tabellen) wordt vaak beter gevectoriseerd dan lange lopende tekst.
Voorkom te lange pagina's zonder subkoppen. Content wordt vaak opgesplitst in chunks voor vectorisatie. Logische secties met headings zorgen voor betere chunks.

Veelgestelde vragen

Kan ik zien hoe mijn content wordt gevectoriseerd?

Niet direct. Vectoren zijn hoog-dimensionaal (768 tot 3072 dimensies) en niet menselijk leesbaar. Wel kun je tools gebruiken om de semantische similariteit tussen je content en specifieke zoekvragen te testen. OpenAI's Embedding API, Cohere Embed en open-source modellen als Sentence-BERT bieden deze mogelijkheid.

Verschilt vectorisatie per AI-model?

Ja. Elk embedding model produceert andere vectoren. OpenAI text-embedding-3 genereert 1536-dimensionale vectoren, terwijl andere modellen 768 of 3072 dimensies gebruiken. De semantische relaties worden wel vergelijkbaar vastgelegd, maar de exacte vectoren zijn niet uitwisselbaar tussen modellen.

Hoe beïnvloedt taal de vectorisatie?

Moderne multilingual embedding modellen (zoals multilingual-e5 of Cohere multilingual) kunnen teksten in verschillende talen vergelijken. Een Nederlandse vraag kan matchen met een Engelse bron als de semantiek overeenkomt. Toch presteren deze modellen doorgaans iets beter wanneer vraag en bron in dezelfde taal zijn.

Zijn vectoren hetzelfde als keywords?

Nee, en dat is het cruciale verschil. Keywords matchen op exacte woordovereenkomst ("SEO tips" vindt alleen documenten met die exacte woorden). Vectoren matchen op betekenis ("hoe verbeter ik mijn vindbaarheid" kan matchen met een document over "zoekmachineoptimalisatie technieken" zonder dat de exacte woorden overeenkomen).

Moet ik mijn content aanpassen voor vector embeddings?

Niet specifiek voor vectoren, maar de principes van goed schrijven voor vectoren zijn grotendeels dezelfde als die voor goed schrijven in het algemeen: wees helder, specifiek, gestructureerd en expliciet over je onderwerp. Content die goed leesbaar is voor mensen embedt doorgaans ook goed.