Exploration du site web
Extrayez automatiquement le contenu des pages de votre site web
Aperçu
L'explorateur de site web découvre et extrait automatiquement le contenu de plusieurs pages de votre site. Au lieu d'ajouter les pages une par une, vous pouvez explorer l'intégralité de votre site (ou des sections spécifiques) et faire ajouter automatiquement tout le contenu à la base de connaissances de votre IA.
L'explorateur suit les liens pour découvrir des pages, extrait le contenu textuel et traite l'ensemble pour que votre IA puisse répondre aux questions sur votre site web.
Modes d'exploration
Vous pouvez choisir entre deux modes d'exploration selon vos besoins :
Mode automatique
L'explorateur démarre depuis votre page d'accueil et découvre automatiquement les pages en suivant les liens. Il vérifie également votre fichier sitemap.xml s'il est disponible. Idéal pour explorer l'intégralité de votre site web ou de grandes sections de celui-ci.
Tous les forfaitsMode manuel
Vous spécifiez les URL exactes à explorer (séparées par des virgules). L'explorateur ne visite que ces pages spécifiques. Idéal lorsque vous ne souhaitez ajouter que certaines pages à votre base de connaissances.
Starter+Limites d'exploration par forfait
The maximum number of pages you can crawl depends on your plan:
| Plan | Nombre maximum de pages | Mode manuel | Protégé par mot de passe |
|---|---|---|---|
| Gratuit | 50 pages | ||
| Starter | 250 pages | ||
| Standard | 1 000 pages | ||
| Pro | 5 000 pages |
Password Protected Pages Starter+
Besoin d'explorer des pages derrière une connexion ? Activez l'option "Pages protégées par mot de passe" pour explorer le contenu réservé aux membres, les tableaux de bord ou toute zone protégée par mot de passe de votre site web.
Comment utiliser
- Activez le bouton "Pages protégées par mot de passe" sur la page d'exploration
- Saisissez l'URL de votre page de connexion (par ex.,
yoursite.com/login) - Saisissez votre nom d'utilisateur/e-mail et votre mot de passe
- Cliquez sur Start Crawling — le système se connectera d'abord, puis explorera les pages protégées
Comment ça fonctionne
Lorsque vous activez la protection par mot de passe, l'explorateur :
- Visits your login page and detects the form fields automatically
- Soumet vos identifiants (y compris les jetons CSRF)
- Maintient la session authentifiée pendant l'exploration
- Starts from where you're redirected after login (e.g., your dashboard)
- Découvre et explore toutes les pages protégées accessibles
Astuce : L'explorateur détecte automatiquement les champs de formulaire (e-mail, nom d'utilisateur, mot de passe) et les jetons de sécurité, il fonctionne donc avec la plupart des formulaires de connexion sans configuration supplémentaire.
Avancé : noms de champs personnalisés
Si votre formulaire de connexion utilise des noms de champs non standard, développez la section "Avancé" et spécifiez :
- Nom du champ identifiant - Le nom du champ de formulaire pour l'identifiant/e-mail (ex. :
user_email) - Nom du champ mot de passe - Le nom du champ de formulaire pour le mot de passe (ex. :
user_pass)
Limitations : L'exploration protégée par mot de passe fonctionne avec les formulaires de connexion HTML standard. Elle peut ne pas fonctionner avec :
- JavaScript-based logins (React, Vue, Angular single-page apps)
- Connexions protégées par CAPTCHA ou reCAPTCHA
- Authentification à deux facteurs (2FA)
- Connexions OAuth (Google, Facebook, etc.)
- Flux de connexion à plusieurs étapes
Astuce : Au lieu d'utiliser votre compte personnel, envisagez de créer un compte dédié spécifiquement à l'exploration. Cela vous permet de contrôler exactement ce à quoi le robot d'exploration peut accéder.
Bonnes pratiques
Avant l'exploration
- Make sure your website is accessible and pages load correctly
- Check that important pages are linked from your homepage or sitemap
- For password-protected crawls, verify your credentials work
Choisir les pages
- Start with your most important pages - product pages, FAQs, services
- Utilisez le mode manuel si vous n'avez besoin que de pages spécifiques
- Avoid crawling pages with outdated or inaccurate information
Après l'exploration
- Vérifiez le contenu exploré dans votre base de connaissances
- Supprimez toutes les pages non pertinentes qui ont été capturées
- Testez votre IA avec des questions sur le contenu exploré
- Relancez l'exploration périodiquement pour maintenir le contenu à jour
Note : Chaque nouvelle exploration remplace la précédente pour ce site web. Votre IA utilisera toujours le contenu le plus récemment exploré.
Gestion des pages explorées
Une fois l'exploration terminée, vous pouvez prévisualiser et gérer les pages individuelles depuis la section Base de connaissances de votre tableau de bord.
Prévisualisation du contenu de la page
- Accédez à votre Tableau de bord et ouvrez la section Base de connaissances
- Cliquez sur un élément d'exploration pour l'ouvrir — vous verrez une liste de toutes les pages explorées
- Click any page title to preview its extracted content
- Utilisez le bouton Retour aux pages pour revenir à la liste des pages
Astuce : La prévisualisation des pages est un excellent moyen de vérifier que le robot d'exploration a extrait le bon contenu. Si une page semble incorrecte, vous pouvez la modifier directement ou la supprimer et ajouter le contenu manuellement à la place.
Editing Individual Pages Starter+
Vous pouvez modifier le contenu extrait de toute page explorée. C'est utile pour corriger les problèmes de mise en forme, supprimer les sections non pertinentes ou ajouter des informations manquantes.
- Open the crawl item and click a page title to view its content
- Cliquez sur le bouton Edit en haut de l'aperçu
- Modifiez le titre ou le contenu selon vos besoins
- Cliquez sur Save & Re-embed — les embeddings IA de la page seront régénérés avec le contenu mis à jour
Note : La modification d'une page ne réintègre que cette page spécifique, pas l'ensemble de l'exploration. Vos autres pages explorées ne sont pas affectées.
Re-crawl de pages individuelles Starter+
Si une page de votre site web a été mise à jour, vous pouvez re-crawler uniquement cette page sans re-crawler l'intégralité de votre site web.
- Ouvrez l'élément d'exploration depuis votre base de connaissances
- Click the re-crawl button next to the page you want to update
- Confirmer — la page sera récupérée à nouveau et ses embeddings mis à jour avec le dernier contenu
Astuce : C'est idéal pour maintenir des pages individuelles à jour après des modifications de contenu, sans avoir à re-crawler des centaines de pages.
Suppression de pages individuelles
Vous pouvez supprimer des pages spécifiques d'une exploration sans supprimer l'exploration entière. C'est utile pour retirer les pages non pertinentes, en double ou mal explorées.
- Ouvrez l'élément d'exploration depuis votre base de connaissances
- Cliquez sur le bouton supprimer à côté de la page que vous souhaitez retirer
- Confirmez la suppression — la page et ses embeddings seront définitivement supprimés
Note : Si vous supprimez toutes les pages d'une exploration, l'entrée d'exploration entière sera automatiquement retirée de votre base de connaissances.
Dépannage
L'exploration renvoie moins de pages que prévu
- Pages might not be linked from discoverable pages
- Certaines pages peuvent être bloquées par le fichier robots.txt
- Cloudflare or other security services might block the crawler
- Solution: Use Manual mode to specify exact URLs
Échec de l'exploration protégée par mot de passe
- Vérifiez que vos identifiants sont corrects
- Vérifiez si votre connexion utilise un CAPTCHA ou la 2FA
- Try specifying custom field names in Advanced settings
- Your site might use JavaScript-based authentication (not supported)
Alternatives si l'exploration ne fonctionne pas :
- Rendez temporairement les pages publiques, explorez-les, puis réactivez la protection
- Enregistrez les pages sous forme de fichiers HTML et téléversez-les via Téléversement groupé
Le contenu semble incomplet
- Certains contenus peuvent être chargés via JavaScript (non extraits)
- Content might be in images (not extracted as text)
- Solution : Ajoutez manuellement le contenu manquant via un texte ou un téléchargement PDF