Retour au tableau de bord

Documentation

Apprenez à utiliser Asyntai

Exploration du site web

Extrayez automatiquement le contenu des pages de votre site web

Lancer l'exploration

Aperçu

L'explorateur de site web découvre et extrait automatiquement le contenu de plusieurs pages de votre site. Au lieu d'ajouter les pages une par une, vous pouvez explorer l'intégralité de votre site (ou des sections spécifiques) et faire ajouter automatiquement tout le contenu à la base de connaissances de votre IA.

L'explorateur suit les liens pour découvrir des pages, extrait le contenu textuel et traite l'ensemble pour que votre IA puisse répondre aux questions sur votre site web.

Enrichissement automatique du contenu

Si votre site est construit sur une plateforme populaire comme WordPress, Shopify, WooCommerce, Drupal, Squarespace ou Strapi, le robot d'exploration récupère automatiquement du contenu structuré supplémentaire en plus des pages habituelles — comme l'intégralité de votre catalogue produits, articles de blog, catégories et listings.

Vous n'avez rien à configurer. Si votre site est construit sur une plateforme prise en charge, votre IA obtient automatiquement des connaissances plus riches et mieux organisées.

Modes d'exploration

Vous pouvez choisir entre deux modes d'exploration selon vos besoins :

Mode automatique

L'explorateur démarre depuis votre page d'accueil et découvre automatiquement les pages en suivant les liens. Il vérifie également votre fichier sitemap.xml s'il est disponible. Idéal pour explorer l'intégralité de votre site web ou de grandes sections de celui-ci.

Tous les forfaits

Mode manuel

Vous spécifiez les URL exactes à explorer (séparées par des virgules). L'explorateur ne visite que ces pages spécifiques. Idéal lorsque vous ne souhaitez ajouter que certaines pages à votre base de connaissances.

Limites d'exploration par forfait

Le nombre maximum de pages que vous pouvez explorer dépend de votre plan :

Forfait Nombre maximum de pages Mode manuel Protégé par mot de passe
Gratuit 50 pages
Starter 250 pages
Standard 1 000 pages
Pro 5 000 pages

Pages protégées par mot de passe

Besoin d'explorer des pages derrière une connexion ? Activez l'option "Pages protégées par mot de passe" pour explorer le contenu réservé aux membres, les tableaux de bord ou toute zone protégée par mot de passe de votre site web.

Comment utiliser

  1. Activez le bouton "Pages protégées par mot de passe" sur la page d'exploration
  2. Saisissez l'URL de votre page de connexion (par ex., yoursite.com/login)
  3. Saisissez votre nom d'utilisateur/e-mail et votre mot de passe
  4. Cliquez sur Start Crawling — le système se connectera d'abord, puis explorera les pages protégées

Comment ça marche

Lorsque vous activez la protection par mot de passe, l'explorateur :

  1. Visite votre page de connexion et détecte automatiquement les champs du formulaire
  2. Soumet vos identifiants (y compris les jetons CSRF)
  3. Maintient la session authentifiée pendant l'exploration
  4. Démarre à partir de la page de redirection après connexion (par ex., votre tableau de bord)
  5. Découvre et explore toutes les pages protégées accessibles

Astuce : L'explorateur détecte automatiquement les champs de formulaire (e-mail, nom d'utilisateur, mot de passe) et les jetons de sécurité, il fonctionne donc avec la plupart des formulaires de connexion sans configuration supplémentaire.

Avancé : noms de champs personnalisés

Si votre formulaire de connexion utilise des noms de champs non standard, développez la section "Avancé" et spécifiez :

  • Nom du champ identifiant - Le nom du champ de formulaire pour l'identifiant/e-mail (ex. : user_email)
  • Nom du champ mot de passe - Le nom du champ de formulaire pour le mot de passe (ex. : user_pass)

Limitations : L'exploration protégée par mot de passe fonctionne avec les formulaires de connexion HTML standard. Elle peut ne pas fonctionner avec :

  • Connexions basées sur JavaScript (applications monopage React, Vue, Angular)
  • Connexions protégées par CAPTCHA ou reCAPTCHA
  • Authentification à deux facteurs (2FA)
  • Connexions OAuth (Google, Facebook, etc.)
  • Flux de connexion à plusieurs étapes

Astuce : Au lieu d'utiliser votre compte personnel, envisagez de créer un compte dédié spécifiquement à l'exploration. Cela vous permet de contrôler exactement ce à quoi le robot d'exploration peut accéder.

Bonnes pratiques

Avant l'exploration

  • Assurez-vous que votre site web est accessible et que les pages se chargent correctement
  • Vérifiez que les pages importantes sont liées depuis votre page d'accueil ou votre sitemap
  • Pour les explorations protégées par mot de passe, vérifiez que vos identifiants fonctionnent

Choisir les pages

  • Commencez par vos pages les plus importantes - pages produits, FAQ, services
  • Utilisez le mode manuel si vous n'avez besoin que de pages spécifiques
  • Évitez d'explorer des pages contenant des informations obsolètes ou inexactes

Après l'exploration

  • Vérifiez le contenu exploré dans votre base de connaissances
  • Supprimez toutes les pages non pertinentes qui ont été capturées
  • Testez votre IA avec des questions sur le contenu exploré
  • Relancez l'exploration périodiquement pour maintenir le contenu à jour

Note : Chaque nouvelle exploration remplace la précédente pour ce site web. Votre IA utilisera toujours le contenu le plus récemment exploré.

Gestion des pages explorées

Une fois l'exploration terminée, vous pouvez prévisualiser et gérer les pages individuelles depuis la section Base de connaissances de votre tableau de bord.

Prévisualisation du contenu de la page

  1. Accédez à votre Tableau de bord et ouvrez la section Base de connaissances
  2. Cliquez sur un élément d'exploration pour l'ouvrir — vous verrez une liste de toutes les pages explorées
  3. Cliquez sur le titre d'une page pour prévisualiser son contenu extrait
  4. Utilisez le bouton Retour aux pages pour revenir à la liste des pages

Astuce : La prévisualisation des pages est un excellent moyen de vérifier que le robot d'exploration a extrait le bon contenu. Si une page semble incorrecte, vous pouvez la modifier directement ou la supprimer et ajouter le contenu manuellement à la place.

Modification de pages individuelles

Vous pouvez modifier le contenu extrait de toute page explorée. C'est utile pour corriger les problèmes de mise en forme, supprimer les sections non pertinentes ou ajouter des informations manquantes.

  1. Ouvrez l'élément d'exploration et cliquez sur le titre d'une page pour voir son contenu
  2. Cliquez sur le bouton Modifier en haut de l'aperçu
  3. Modifiez le titre ou le contenu selon vos besoins
  4. Cliquez sur Save & Re-embed — les embeddings IA de la page seront régénérés avec le contenu mis à jour

Note : La modification d'une page ne réintègre que cette page spécifique, pas l'ensemble de l'exploration. Vos autres pages explorées ne sont pas affectées.

Re-crawl de pages individuelles

Si une page de votre site web a été mise à jour, vous pouvez re-crawler uniquement cette page sans re-crawler l'intégralité de votre site web.

  1. Ouvrez l'élément d'exploration depuis votre base de connaissances
  2. Cliquez sur le bouton re-crawl à côté de la page que vous souhaitez mettre à jour
  3. Confirmer — la page sera récupérée à nouveau et ses embeddings mis à jour avec le dernier contenu

Astuce : C'est idéal pour maintenir des pages individuelles à jour après des modifications de contenu, sans avoir à re-crawler des centaines de pages.

Suppression de pages individuelles

Vous pouvez supprimer des pages spécifiques d'une exploration sans supprimer l'exploration entière. C'est utile pour retirer les pages non pertinentes, en double ou mal explorées.

  1. Ouvrez l'élément d'exploration depuis votre base de connaissances
  2. Cliquez sur le bouton supprimer à côté de la page que vous souhaitez retirer
  3. Confirmez la suppression — la page et ses embeddings seront définitivement supprimés

Note : Si vous supprimez toutes les pages d'une exploration, l'entrée d'exploration entière sera automatiquement retirée de votre base de connaissances.

Dépannage

L'exploration renvoie moins de pages que prévu

  • Les pages pourraient ne pas être liées depuis des pages découvrables
  • Certaines pages peuvent être bloquées par le fichier robots.txt
  • Cloudflare ou d'autres services de sécurité pourraient bloquer l'explorateur
  • Solution : Utilisez le mode manuel pour spécifier les URL exactes

Échec de l'exploration protégée par mot de passe

  • Vérifiez que vos identifiants sont corrects
  • Vérifiez si votre connexion utilise un CAPTCHA ou la 2FA
  • Essayez de spécifier des noms de champs personnalisés dans les paramètres avancés
  • Votre site utilise peut-être une authentification basée sur JavaScript (non prise en charge)

Alternatives si l'exploration ne fonctionne pas :

  • Rendez temporairement les pages publiques, explorez-les, puis réactivez la protection
  • Enregistrez les pages sous forme de fichiers HTML et téléversez-les via Téléversement groupé

Le contenu semble incomplet

  • Certains contenus peuvent être chargés via JavaScript (non extraits)
  • Le contenu peut être dans des images (non extrait sous forme de texte)
  • Solution : Ajoutez manuellement le contenu manquant via un téléversement de texte ou de PDF