Website crawlen

Automatisch inhoud extraheren van uw websitepagina's

Overzicht

De websitecrawler ontdekt en extraheert automatisch inhoud van meerdere pagina's op uw website. In plaats van pagina's één voor één toe te voegen, kunt u uw gehele site (of specifieke secties) crawlen en alle inhoud automatisch aan de kennisbank van uw AI laten toevoegen.

De crawler volgt links om pagina's te ontdekken, extraheert tekstinhoud en verwerkt alles zodat uw AI vragen over uw website kan beantwoorden.

Crawlmodi

U kunt kiezen tussen twee crawlmodi, afhankelijk van uw behoeften:

Automatische modus

De crawler begint bij uw startpagina en ontdekt automatisch pagina's door links te volgen. Hij controleert ook uw sitemap.xml indien beschikbaar. Het beste voor het crawlen van uw gehele website of grote secties ervan.

Alle abonnementen

Handmatige modus

U geeft exacte URL's op om te crawlen (kommagescheiden). De crawler bezoekt alleen die specifieke pagina's. Het beste wanneer u alleen bepaalde pagina's aan uw kennisbank wilt toevoegen.

Starter+

Crawllimieten per abonnement

The maximum number of pages you can crawl depends on your plan:

Abonnement	Max. pagina's	Handmatige modus	Met wachtwoord beveiligd
Gratis	50 pagina's
Starter	250 pagina's
Standard	1.000 pagina's
Pro	5.000 pagina's

Password Protected Pages Starter+

Wilt u pagina's achter een login crawlen? Schakel de optie "Met wachtwoord beveiligde pagina's" in om inhoud alleen voor leden, dashboards of andere met een wachtwoord beveiligde delen van uw website te crawlen.

Gebruiksaanwijzing

Schakel de "Met wachtwoord beveiligde pagina's"-schakelaar in op de crawlpagina
Voer uw Inlogpagina-URL in (bijv. yoursite.com/login)
Voer uw Gebruikersnaam/E-mailadres en Wachtwoord in
Klik op Crawlen starten - het systeem logt eerst in en crawlt vervolgens beveiligde pagina's

Hoe het werkt

When you enable password protection, the crawler:

Bezoekt uw inlogpagina en detecteert de formuliervelden automatisch
Verstuurt uw inloggegevens (inclusief eventuele CSRF-tokens)
Behoudt de geauthenticeerde sessie tijdens het crawlen
Starts from where you're redirected after login (e.g., your dashboard)
Ontdekt en crawlt alle beveiligde pagina's die het kan vinden

Tip: De crawler detecteert automatisch formuliervelden (e-mail, gebruikersnaam, wachtwoord) en beveiligingstokens, dus het werkt met de meeste inlogformulieren zonder aanvullende configuratie.

Geavanceerd: Aangepaste veldnamen

Als uw inlogformulier niet-standaard veldnamen gebruikt, vouw dan de sectie "Geavanceerd" uit en specificeer:

Gebruikersnaamveldnaam - De formulierveldnaam voor gebruikersnaam/e-mail (bijv. user_email)
Wachtwoordveldnaam - De formulierveldnaam voor wachtwoord (bijv. user_pass)

Beperkingen: Met wachtwoord beveiligd crawlen werkt met standaard HTML-inlogformulieren. Het werkt mogelijk niet met:

JavaScript-based logins (React, Vue, Angular single-page apps)
Met CAPTCHA of reCAPTCHA beveiligde inlogpagina's
Tweefactorauthenticatie (2FA)
OAuth-inlogpagina's (Google, Facebook, enz.)
Meerstaps-inlogprocessen

Tip: Overweeg in plaats van uw persoonlijke account een speciaal account aan te maken voor het crawlen. Zo kunt u precies bepalen waar de crawler toegang toe heeft.

Aanbevolen werkwijzen

Voor het crawlen

Make sure your website is accessible and pages load correctly
Check that important pages are linked from your homepage or sitemap
For password-protected crawls, verify your credentials work

Pagina's kiezen

Start with your most important pages - product pages, FAQs, services
Use Manual mode if you only need specific pages
Vermijd het crawlen van pagina's met verouderde of onjuiste informatie

Na het crawlen

Bekijk de gecrawlde inhoud in uw kennisbank
Verwijder eventuele irrelevante pagina's die zijn vastgelegd
Test uw AI met vragen over de gecrawlde inhoud
Crawl periodiek opnieuw om de inhoud actueel te houden

Opmerking: Elke nieuwe crawl vervangt de vorige voor die website. Uw AI gebruikt altijd de meest recent gecrawlde inhoud.

Gecrawlde pagina's beheren

Nadat een crawl is voltooid, kunt u individuele pagina's bekijken en beheren vanuit de Kennisbank-sectie op uw Dashboard.

Pagina-inhoud bekijken

Ga naar uw Dashboard en open de sectie Kennisbank
Klik op een crawl-item om het te openen — u ziet een lijst van alle gecrawlde pagina's
Klik op een paginatitel om de geëxtraheerde inhoud te bekijken
Gebruik de knop Terug naar pagina's om terug te keren naar de paginalijst

Tip: Pagina's bekijken is een uitstekende manier om te controleren of de crawler de juiste inhoud heeft geëxtraheerd. Als een pagina er verkeerd uitziet, kunt u deze direct bewerken of verwijderen en de inhoud in plaats daarvan handmatig toevoegen.

Editing Individual Pages Starter+

U kunt de geëxtraheerde inhoud van elke gecrawlde pagina bewerken. Dit is handig voor het corrigeren van opmaakproblemen, het verwijderen van irrelevante secties of het toevoegen van ontbrekende informatie.

Open the crawl item and click a page title to view its content
Klik op de knop Bewerken bovenaan de voorvertoning
Pas de titel of inhoud aan zoals nodig
Klik op Opslaan & Opnieuw insluiten — de AI-embeddings van de pagina worden opnieuw gegenereerd met de bijgewerkte inhoud

Opmerking: Het bewerken van een pagina sluit alleen die specifieke pagina opnieuw in, niet de gehele crawl. Uw andere gecrawlde pagina's worden niet beïnvloed.

Opnieuw crawlen van individuele pagina's Starter+

Als een pagina op uw website is bijgewerkt, kunt u alleen die pagina opnieuw crawlen zonder uw hele website opnieuw te crawlen.

Open het crawl-item vanuit uw Kennisbank
Click the re-crawl button next to the page you want to update
Bevestigen — de pagina wordt opnieuw opgehaald en de inbeddingen worden bijgewerkt met de nieuwste inhoud

Tip: Dit is geweldig om individuele pagina's up-to-date te houden na inhoudswijzigingen, zonder honderden pagina's opnieuw te hoeven crawlen.

Individuele pagina's verwijderen

U kunt specifieke pagina's uit een crawl verwijderen zonder de gehele crawl te verwijderen. Dit is handig voor het verwijderen van irrelevante, dubbele of onjuist gecrawlde pagina's.

Open het crawl-item vanuit uw Kennisbank
Klik op de knop verwijderen naast de pagina die u wilt verwijderen
Bevestig de verwijdering — de pagina en de bijbehorende embeddings worden permanent verwijderd

Opmerking: Als u alle pagina's uit een crawl verwijdert, wordt het gehele crawl-item automatisch uit uw kennisbank verwijderd.

Probleemoplossing

Crawl levert minder pagina's op dan verwacht

Pagina's zijn mogelijk niet gelinkt vanaf vindbare pagina's
Sommige pagina's worden mogelijk geblokkeerd door robots.txt
Cloudflare or other security services might block the crawler
Solution: Use Manual mode to specify exact URLs

Met wachtwoord beveiligde crawl mislukt

Controleer of uw inloggegevens correct zijn
Controleer of uw inlogpagina CAPTCHA of 2FA gebruikt
Try specifying custom field names in Advanced settings
Your site might use JavaScript-based authentication (not supported)

Alternatieven als crawlen niet werkt:

Maak de pagina's tijdelijk openbaar, crawl ze en schakel de beveiliging vervolgens weer in
Sla de pagina's op als HTML-bestanden en upload ze via Bulk Upload

Inhoud lijkt onvolledig

Some content might be loaded via JavaScript (not extracted)
Inhoud kan zich in afbeeldingen bevinden (niet als tekst geëxtraheerd)
Oplossing: Voeg ontbrekende inhoud handmatig toe via tekst- of PDF-upload

Documentatie