Website crawlen
Automatisch inhoud extraheren van uw websitepagina's
Overzicht
De websitecrawler ontdekt en extraheert automatisch inhoud van meerdere pagina's op uw website. In plaats van pagina's één voor één toe te voegen, kunt u uw gehele site (of specifieke secties) crawlen en alle inhoud automatisch aan de kennisbank van uw AI laten toevoegen.
De crawler volgt links om pagina's te ontdekken, extraheert tekstinhoud en verwerkt alles zodat uw AI vragen over uw website kan beantwoorden.
Crawlmodi
U kunt kiezen tussen twee crawlmodi, afhankelijk van uw behoeften:
Automatische modus
De crawler begint bij uw startpagina en ontdekt automatisch pagina's door links te volgen. Hij controleert ook uw sitemap.xml indien beschikbaar. Het beste voor het crawlen van uw gehele website of grote secties ervan.
Alle abonnementenHandmatige modus
U geeft exacte URL's op om te crawlen (kommagescheiden). De crawler bezoekt alleen die specifieke pagina's. Het beste wanneer u alleen bepaalde pagina's aan uw kennisbank wilt toevoegen.
Starter+Crawllimieten per abonnement
The maximum number of pages you can crawl depends on your plan:
| Abonnement | Max. pagina's | Handmatige modus | Met wachtwoord beveiligd |
|---|---|---|---|
| Gratis | 50 pagina's | ||
| Starter | 250 pagina's | ||
| Standard | 1.000 pagina's | ||
| Pro | 5.000 pagina's |
Password Protected Pages Starter+
Wilt u pagina's achter een login crawlen? Schakel de optie "Met wachtwoord beveiligde pagina's" in om inhoud alleen voor leden, dashboards of andere met een wachtwoord beveiligde delen van uw website te crawlen.
Gebruiksaanwijzing
- Schakel de "Met wachtwoord beveiligde pagina's"-schakelaar in op de crawlpagina
- Voer uw Inlogpagina-URL in (bijv.
yoursite.com/login) - Voer uw Gebruikersnaam/E-mailadres en Wachtwoord in
- Klik op Crawlen starten - het systeem logt eerst in en crawlt vervolgens beveiligde pagina's
Hoe het werkt
When you enable password protection, the crawler:
- Bezoekt uw inlogpagina en detecteert de formuliervelden automatisch
- Verstuurt uw inloggegevens (inclusief eventuele CSRF-tokens)
- Behoudt de geauthenticeerde sessie tijdens het crawlen
- Starts from where you're redirected after login (e.g., your dashboard)
- Ontdekt en crawlt alle beveiligde pagina's die het kan vinden
Tip: De crawler detecteert automatisch formuliervelden (e-mail, gebruikersnaam, wachtwoord) en beveiligingstokens, dus het werkt met de meeste inlogformulieren zonder aanvullende configuratie.
Geavanceerd: Aangepaste veldnamen
Als uw inlogformulier niet-standaard veldnamen gebruikt, vouw dan de sectie "Geavanceerd" uit en specificeer:
- Gebruikersnaamveldnaam - De formulierveldnaam voor gebruikersnaam/e-mail (bijv.
user_email) - Wachtwoordveldnaam - De formulierveldnaam voor wachtwoord (bijv.
user_pass)
Beperkingen: Met wachtwoord beveiligd crawlen werkt met standaard HTML-inlogformulieren. Het werkt mogelijk niet met:
- JavaScript-based logins (React, Vue, Angular single-page apps)
- Met CAPTCHA of reCAPTCHA beveiligde inlogpagina's
- Tweefactorauthenticatie (2FA)
- OAuth-inlogpagina's (Google, Facebook, enz.)
- Meerstaps-inlogprocessen
Tip: Overweeg in plaats van uw persoonlijke account een speciaal account aan te maken voor het crawlen. Zo kunt u precies bepalen waar de crawler toegang toe heeft.
Aanbevolen werkwijzen
Voor het crawlen
- Make sure your website is accessible and pages load correctly
- Check that important pages are linked from your homepage or sitemap
- For password-protected crawls, verify your credentials work
Pagina's kiezen
- Start with your most important pages - product pages, FAQs, services
- Use Manual mode if you only need specific pages
- Vermijd het crawlen van pagina's met verouderde of onjuiste informatie
Na het crawlen
- Bekijk de gecrawlde inhoud in uw kennisbank
- Verwijder eventuele irrelevante pagina's die zijn vastgelegd
- Test uw AI met vragen over de gecrawlde inhoud
- Crawl periodiek opnieuw om de inhoud actueel te houden
Opmerking: Elke nieuwe crawl vervangt de vorige voor die website. Uw AI gebruikt altijd de meest recent gecrawlde inhoud.
Gecrawlde pagina's beheren
Nadat een crawl is voltooid, kunt u individuele pagina's bekijken en beheren vanuit de Kennisbank-sectie op uw Dashboard.
Pagina-inhoud bekijken
- Ga naar uw Dashboard en open de sectie Kennisbank
- Klik op een crawl-item om het te openen — u ziet een lijst van alle gecrawlde pagina's
- Klik op een paginatitel om de geëxtraheerde inhoud te bekijken
- Gebruik de knop Terug naar pagina's om terug te keren naar de paginalijst
Tip: Pagina's bekijken is een uitstekende manier om te controleren of de crawler de juiste inhoud heeft geëxtraheerd. Als een pagina er verkeerd uitziet, kunt u deze direct bewerken of verwijderen en de inhoud in plaats daarvan handmatig toevoegen.
Editing Individual Pages Starter+
U kunt de geëxtraheerde inhoud van elke gecrawlde pagina bewerken. Dit is handig voor het corrigeren van opmaakproblemen, het verwijderen van irrelevante secties of het toevoegen van ontbrekende informatie.
- Open the crawl item and click a page title to view its content
- Klik op de knop Bewerken bovenaan de voorvertoning
- Pas de titel of inhoud aan zoals nodig
- Klik op Opslaan & Opnieuw insluiten — de AI-embeddings van de pagina worden opnieuw gegenereerd met de bijgewerkte inhoud
Opmerking: Het bewerken van een pagina sluit alleen die specifieke pagina opnieuw in, niet de gehele crawl. Uw andere gecrawlde pagina's worden niet beïnvloed.
Opnieuw crawlen van individuele pagina's Starter+
Als een pagina op uw website is bijgewerkt, kunt u alleen die pagina opnieuw crawlen zonder uw hele website opnieuw te crawlen.
- Open het crawl-item vanuit uw Kennisbank
- Click the re-crawl button next to the page you want to update
- Bevestigen — de pagina wordt opnieuw opgehaald en de inbeddingen worden bijgewerkt met de nieuwste inhoud
Tip: Dit is geweldig om individuele pagina's up-to-date te houden na inhoudswijzigingen, zonder honderden pagina's opnieuw te hoeven crawlen.
Individuele pagina's verwijderen
U kunt specifieke pagina's uit een crawl verwijderen zonder de gehele crawl te verwijderen. Dit is handig voor het verwijderen van irrelevante, dubbele of onjuist gecrawlde pagina's.
- Open het crawl-item vanuit uw Kennisbank
- Klik op de knop verwijderen naast de pagina die u wilt verwijderen
- Bevestig de verwijdering — de pagina en de bijbehorende embeddings worden permanent verwijderd
Opmerking: Als u alle pagina's uit een crawl verwijdert, wordt het gehele crawl-item automatisch uit uw kennisbank verwijderd.
Probleemoplossing
Crawl levert minder pagina's op dan verwacht
- Pagina's zijn mogelijk niet gelinkt vanaf vindbare pagina's
- Sommige pagina's worden mogelijk geblokkeerd door robots.txt
- Cloudflare or other security services might block the crawler
- Solution: Use Manual mode to specify exact URLs
Met wachtwoord beveiligde crawl mislukt
- Controleer of uw inloggegevens correct zijn
- Controleer of uw inlogpagina CAPTCHA of 2FA gebruikt
- Try specifying custom field names in Advanced settings
- Your site might use JavaScript-based authentication (not supported)
Alternatieven als crawlen niet werkt:
- Maak de pagina's tijdelijk openbaar, crawl ze en schakel de beveiliging vervolgens weer in
- Sla de pagina's op als HTML-bestanden en upload ze via Bulk Upload
Inhoud lijkt onvolledig
- Some content might be loaded via JavaScript (not extracted)
- Inhoud kan zich in afbeeldingen bevinden (niet als tekst geëxtraheerd)
- Oplossing: Voeg ontbrekende inhoud handmatig toe via tekst- of PDF-upload