Scansione del Sito Web
Estrai automaticamente i contenuti dalle pagine del tuo sito web
Panoramica
Il crawler del sito web scopre ed estrae automaticamente i contenuti da più pagine del tuo sito. Invece di aggiungere le pagine una per una, puoi eseguire la scansione dell'intero sito (o di sezioni specifiche) e aggiungere automaticamente tutti i contenuti alla knowledge base della tua AI.
Il crawler segue i link per scoprire le pagine, estrae il contenuto testuale ed elabora tutto affinché la tua IA possa rispondere a domande sul tuo sito web.
Modalità di scansione
You can choose between two crawl modes depending on your needs:
Modalità automatica
Il crawler parte dalla tua homepage e scopre automaticamente le pagine seguendo i link. Controlla anche il tuo sitemap.xml se disponibile. Ideale per la scansione dell'intero sito web o di ampie sezioni.
Tutti i pianiModalità manuale
Specifichi gli URL esatti da scansionare (separati da virgola). Il crawler visita solo quelle pagine specifiche. Ideale quando vuoi aggiungere solo determinate pagine alla knowledge base.
Starter+Limiti di scansione per piano
The maximum number of pages you can crawl depends on your plan:
| Piano | Pagine massime | Modalità manuale | Protetto da password |
|---|---|---|---|
| Free | 50 pagine | ||
| Starter | 250 pagine | ||
| Standard | 1.000 pagine | ||
| Pro | 5.000 pagine |
Pagine protette da password Starter+
Hai bisogno di scansionare pagine dietro un login? Abilita l'opzione "Pagine protette da password" per scansionare contenuti riservati ai membri, dashboard o qualsiasi area protetta da password del tuo sito web.
Come usare
- Abilita l'interruttore "Pagine protette da password" nella pagina di scansione
- Inserisci l'URL della pagina di login (es.
yoursite.com/login) - Inserisci il tuo Nome utente/Email e la Password
- Clicca su Avvia la scansione - il sistema effettuerà prima il login, poi scansionerà le pagine protette
Come Funziona
Quando abiliti la protezione con password, il crawler:
- Visits your login page and detects the form fields automatically
- Invia le tue credenziali (inclusi eventuali token CSRF)
- Mantiene la sessione autenticata durante la scansione
- Parte da dove vieni reindirizzato dopo il login (es. la tua dashboard)
- Scopre e scansiona tutte le pagine protette che riesce a trovare
Suggerimento: Il crawler rileva automaticamente i campi del modulo (email, nome utente, password) e i token di sicurezza, quindi funziona con la maggior parte dei moduli di login senza configurazione aggiuntiva.
Avanzato: nomi dei campi personalizzati
Se il tuo modulo di login utilizza nomi di campi non standard, espandi la sezione "Avanzato" e specifica:
- Nome del campo utente - Il nome del campo del modulo per nome utente/email (es.
user_email) - Nome del campo password - Il nome del campo del modulo per la password (es.
user_pass)
Limitazioni: La scansione protetta da password funziona con moduli di login HTML standard. Potrebbe non funzionare con:
- Login basati su JavaScript (React, Vue, Angular single-page apps)
- Login protetti da CAPTCHA o reCAPTCHA
- Autenticazione a due fattori (2FA)
- Login OAuth (Google, Facebook, ecc.)
- Flussi di login multi-step
Suggerimento: Invece di usare il tuo account personale, considera la creazione di un account dedicato specificamente per la scansione. Questo ti permette di controllare esattamente a cosa può accedere il crawler.
Buone pratiche
Prima della scansione
- Make sure your website is accessible and pages load correctly
- Check that important pages are linked from your homepage or sitemap
- For password-protected crawls, verify your credentials work
Scelta delle pagine
- Start with your most important pages - product pages, FAQs, services
- Usa la modalità manuale se hai bisogno solo di pagine specifiche
- Evita di scansionare pagine con informazioni obsolete o imprecise
Dopo la scansione
- Rivedi i contenuti scansionati nella tua knowledge base
- Rimuovi le pagine irrilevanti che sono state acquisite
- Testa la tua IA con domande sui contenuti scansionati
- Re-crawl periodically to keep content up to date
Nota: Ogni nuova scansione sostituisce quella precedente per quel sito web. La tua AI utilizzerà sempre i contenuti scansionati più recenti.
Gestione delle pagine scansionate
Dopo il completamento di una scansione, puoi visualizzare in anteprima e gestire le singole pagine dalla sezione Knowledge Base nella tua Dashboard.
Anteprima del contenuto della pagina
- Vai alla tua Dashboard e apri la sezione Knowledge Base
- Clicca su un elemento di scansione per aprirlo — vedrai un elenco di tutte le pagine scansionate
- Click any page title to preview its extracted content
- Usa il pulsante Torna alle pagine per tornare all'elenco delle pagine
Suggerimento: Visualizzare le pagine in anteprima è un ottimo modo per verificare che il crawler abbia estratto il contenuto corretto. Se una pagina sembra errata, puoi modificarla direttamente oppure eliminarla e aggiungere il contenuto manualmente.
Editing Individual Pages Starter+
Puoi modificare il contenuto estratto di qualsiasi pagina scansionata. Questo è utile per correggere problemi di formattazione, rimuovere sezioni irrilevanti o aggiungere informazioni mancanti.
- Open the crawl item and click a page title to view its content
- Clicca sul pulsante Modifica in cima all'anteprima
- Modifica il titolo o il contenuto secondo necessità
- Clicca su Salva e re-embed — gli embedding IA della pagina verranno rigenerati con il contenuto aggiornato
Nota: La modifica di una pagina re-embed solo quella pagina specifica, non l'intera scansione. Le altre pagine scansionate non vengono modificate.
Ri-scansione di pagine individuali Starter+
Se una pagina del tuo sito web è stata aggiornata, puoi ri-scansionare solo quella pagina senza ri-scansionare l'intero sito web.
- Apri l'elemento di scansione dalla tua Knowledge Base
- Click the re-crawl button next to the page you want to update
- Conferma — la pagina verrà recuperata di nuovo e i suoi embedding aggiornati con il contenuto più recente
Suggerimento: Questo è ottimo per mantenere aggiornate le singole pagine dopo le modifiche al contenuto, senza dover ri-scansionare centinaia di pagine.
Eliminazione delle singole pagine
Puoi rimuovere pagine specifiche da una scansione senza eliminare l'intera scansione. Questo è utile per rimuovere pagine irrilevanti, duplicate o scansionate in modo errato.
- Apri l'elemento di scansione dalla tua Knowledge Base
- Clicca sul pulsante elimina accanto alla pagina che vuoi rimuovere
- Conferma l'eliminazione — la pagina e i suoi embedding verranno rimossi permanentemente
Nota: Se elimini tutte le pagine da una scansione, l'intera voce di scansione verrà automaticamente rimossa dalla tua knowledge base.
Risoluzione dei problemi
La scansione restituisce meno pagine del previsto
- Le pagine potrebbero non essere collegate da pagine raggiungibili
- Alcune pagine potrebbero essere bloccate dal robots.txt
- Cloudflare o altri servizi di sicurezza potrebbero bloccare il crawler
- Solution: Use Manual mode to specify exact URLs
La scansione protetta da password non riesce
- Verifica che le tue credenziali siano corrette
- Controlla se il tuo login utilizza CAPTCHA o 2FA
- Try specifying custom field names in Advanced settings
- Your site might use JavaScript-based authentication (not supported)
Alternative se la scansione non funziona:
- Rendi temporaneamente pubbliche le pagine, scansionale, poi riabilita la protezione
- Salva le pagine come file HTML e caricale tramite Bulk Upload
Il contenuto appare incompleto
- Some content might be loaded via JavaScript (not extracted)
- Il contenuto potrebbe essere in immagini (non estratto come testo)
- Soluzione: Aggiungi manualmente il contenuto mancante tramite caricamento di testo o PDF