Exploration du site web

Extrayez automatiquement le contenu des pages de votre site web

Aperçu

L'explorateur de site web découvre et extrait automatiquement le contenu de plusieurs pages de votre site. Au lieu d'ajouter les pages une par une, vous pouvez explorer l'intégralité de votre site (ou des sections spécifiques) et faire ajouter automatiquement tout le contenu à la base de connaissances de votre IA.

L'explorateur suit les liens pour découvrir des pages, extrait le contenu textuel et traite l'ensemble pour que votre IA puisse répondre aux questions sur votre site web.

Modes d'exploration

Vous pouvez choisir entre deux modes d'exploration selon vos besoins :

Mode automatique

L'explorateur démarre depuis votre page d'accueil et découvre automatiquement les pages en suivant les liens. Il vérifie également votre fichier sitemap.xml s'il est disponible. Idéal pour explorer l'intégralité de votre site web ou de grandes sections de celui-ci.

Tous les forfaits

Mode manuel

Vous spécifiez les URL exactes à explorer (séparées par des virgules). L'explorateur ne visite que ces pages spécifiques. Idéal lorsque vous ne souhaitez ajouter que certaines pages à votre base de connaissances.

Starter+

Limites d'exploration par forfait

The maximum number of pages you can crawl depends on your plan:

Plan	Nombre maximum de pages	Mode manuel	Protégé par mot de passe
Gratuit	50 pages
Starter	250 pages
Standard	1 000 pages
Pro	5 000 pages

Password Protected Pages Starter+

Besoin d'explorer des pages derrière une connexion ? Activez l'option "Pages protégées par mot de passe" pour explorer le contenu réservé aux membres, les tableaux de bord ou toute zone protégée par mot de passe de votre site web.

Comment utiliser

Activez le bouton "Pages protégées par mot de passe" sur la page d'exploration
Saisissez l'URL de votre page de connexion (par ex., yoursite.com/login)
Saisissez votre nom d'utilisateur/e-mail et votre mot de passe
Cliquez sur Start Crawling — le système se connectera d'abord, puis explorera les pages protégées

Comment ça fonctionne

Lorsque vous activez la protection par mot de passe, l'explorateur :

Visits your login page and detects the form fields automatically
Soumet vos identifiants (y compris les jetons CSRF)
Maintient la session authentifiée pendant l'exploration
Starts from where you're redirected after login (e.g., your dashboard)
Découvre et explore toutes les pages protégées accessibles

Astuce : L'explorateur détecte automatiquement les champs de formulaire (e-mail, nom d'utilisateur, mot de passe) et les jetons de sécurité, il fonctionne donc avec la plupart des formulaires de connexion sans configuration supplémentaire.

Avancé : noms de champs personnalisés

Si votre formulaire de connexion utilise des noms de champs non standard, développez la section "Avancé" et spécifiez :

Nom du champ identifiant - Le nom du champ de formulaire pour l'identifiant/e-mail (ex. : user_email)
Nom du champ mot de passe - Le nom du champ de formulaire pour le mot de passe (ex. : user_pass)

Limitations : L'exploration protégée par mot de passe fonctionne avec les formulaires de connexion HTML standard. Elle peut ne pas fonctionner avec :

JavaScript-based logins (React, Vue, Angular single-page apps)
Connexions protégées par CAPTCHA ou reCAPTCHA
Authentification à deux facteurs (2FA)
Connexions OAuth (Google, Facebook, etc.)
Flux de connexion à plusieurs étapes

Astuce : Au lieu d'utiliser votre compte personnel, envisagez de créer un compte dédié spécifiquement à l'exploration. Cela vous permet de contrôler exactement ce à quoi le robot d'exploration peut accéder.

Bonnes pratiques

Avant l'exploration

Make sure your website is accessible and pages load correctly
Check that important pages are linked from your homepage or sitemap
For password-protected crawls, verify your credentials work

Choisir les pages

Start with your most important pages - product pages, FAQs, services
Utilisez le mode manuel si vous n'avez besoin que de pages spécifiques
Avoid crawling pages with outdated or inaccurate information

Après l'exploration

Vérifiez le contenu exploré dans votre base de connaissances
Supprimez toutes les pages non pertinentes qui ont été capturées
Testez votre IA avec des questions sur le contenu exploré
Relancez l'exploration périodiquement pour maintenir le contenu à jour

Note : Chaque nouvelle exploration remplace la précédente pour ce site web. Votre IA utilisera toujours le contenu le plus récemment exploré.

Gestion des pages explorées

Une fois l'exploration terminée, vous pouvez prévisualiser et gérer les pages individuelles depuis la section Base de connaissances de votre tableau de bord.

Prévisualisation du contenu de la page

Accédez à votre Tableau de bord et ouvrez la section Base de connaissances
Cliquez sur un élément d'exploration pour l'ouvrir — vous verrez une liste de toutes les pages explorées
Click any page title to preview its extracted content
Utilisez le bouton Retour aux pages pour revenir à la liste des pages

Astuce : La prévisualisation des pages est un excellent moyen de vérifier que le robot d'exploration a extrait le bon contenu. Si une page semble incorrecte, vous pouvez la modifier directement ou la supprimer et ajouter le contenu manuellement à la place.

Editing Individual Pages Starter+

Vous pouvez modifier le contenu extrait de toute page explorée. C'est utile pour corriger les problèmes de mise en forme, supprimer les sections non pertinentes ou ajouter des informations manquantes.

Open the crawl item and click a page title to view its content
Cliquez sur le bouton Edit en haut de l'aperçu
Modifiez le titre ou le contenu selon vos besoins
Cliquez sur Save & Re-embed — les embeddings IA de la page seront régénérés avec le contenu mis à jour

Note : La modification d'une page ne réintègre que cette page spécifique, pas l'ensemble de l'exploration. Vos autres pages explorées ne sont pas affectées.

Re-crawl de pages individuelles Starter+

Si une page de votre site web a été mise à jour, vous pouvez re-crawler uniquement cette page sans re-crawler l'intégralité de votre site web.

Ouvrez l'élément d'exploration depuis votre base de connaissances
Click the re-crawl button next to the page you want to update
Confirmer — la page sera récupérée à nouveau et ses embeddings mis à jour avec le dernier contenu

Astuce : C'est idéal pour maintenir des pages individuelles à jour après des modifications de contenu, sans avoir à re-crawler des centaines de pages.

Suppression de pages individuelles

Vous pouvez supprimer des pages spécifiques d'une exploration sans supprimer l'exploration entière. C'est utile pour retirer les pages non pertinentes, en double ou mal explorées.

Ouvrez l'élément d'exploration depuis votre base de connaissances
Cliquez sur le bouton supprimer à côté de la page que vous souhaitez retirer
Confirmez la suppression — la page et ses embeddings seront définitivement supprimés

Note : Si vous supprimez toutes les pages d'une exploration, l'entrée d'exploration entière sera automatiquement retirée de votre base de connaissances.

Dépannage

L'exploration renvoie moins de pages que prévu

Pages might not be linked from discoverable pages
Certaines pages peuvent être bloquées par le fichier robots.txt
Cloudflare or other security services might block the crawler
Solution: Use Manual mode to specify exact URLs

Échec de l'exploration protégée par mot de passe

Vérifiez que vos identifiants sont corrects
Vérifiez si votre connexion utilise un CAPTCHA ou la 2FA
Try specifying custom field names in Advanced settings
Your site might use JavaScript-based authentication (not supported)

Alternatives si l'exploration ne fonctionne pas :

Rendez temporairement les pages publiques, explorez-les, puis réactivez la protection
Enregistrez les pages sous forme de fichiers HTML et téléversez-les via Téléversement groupé

Le contenu semble incomplet

Certains contenus peuvent être chargés via JavaScript (non extraits)
Content might be in images (not extracted as text)
Solution : Ajoutez manuellement le contenu manquant via un texte ou un téléchargement PDF

Documentation