Scansione del Sito Web

Estrai automaticamente i contenuti dalle pagine del tuo sito web

Panoramica

Il crawler del sito web scopre ed estrae automaticamente i contenuti da più pagine del tuo sito. Invece di aggiungere le pagine una per una, puoi eseguire la scansione dell'intero sito (o di sezioni specifiche) e aggiungere automaticamente tutti i contenuti alla knowledge base della tua AI.

Il crawler segue i link per scoprire le pagine, estrae il contenuto testuale ed elabora tutto affinché la tua IA possa rispondere a domande sul tuo sito web.

Modalità di scansione

You can choose between two crawl modes depending on your needs:

Modalità automatica

Il crawler parte dalla tua homepage e scopre automaticamente le pagine seguendo i link. Controlla anche il tuo sitemap.xml se disponibile. Ideale per la scansione dell'intero sito web o di ampie sezioni.

Tutti i piani

Modalità manuale

Specifichi gli URL esatti da scansionare (separati da virgola). Il crawler visita solo quelle pagine specifiche. Ideale quando vuoi aggiungere solo determinate pagine alla knowledge base.

Starter+

Limiti di scansione per piano

The maximum number of pages you can crawl depends on your plan:

Piano	Pagine massime	Modalità manuale	Protetto da password
Free	50 pagine
Starter	250 pagine
Standard	1.000 pagine
Pro	5.000 pagine

Pagine protette da password Starter+

Hai bisogno di scansionare pagine dietro un login? Abilita l'opzione "Pagine protette da password" per scansionare contenuti riservati ai membri, dashboard o qualsiasi area protetta da password del tuo sito web.

Come usare

Abilita l'interruttore "Pagine protette da password" nella pagina di scansione
Inserisci l'URL della pagina di login (es. yoursite.com/login)
Inserisci il tuo Nome utente/Email e la Password
Clicca su Avvia la scansione - il sistema effettuerà prima il login, poi scansionerà le pagine protette

Come Funziona

Quando abiliti la protezione con password, il crawler:

Visits your login page and detects the form fields automatically
Invia le tue credenziali (inclusi eventuali token CSRF)
Mantiene la sessione autenticata durante la scansione
Parte da dove vieni reindirizzato dopo il login (es. la tua dashboard)
Scopre e scansiona tutte le pagine protette che riesce a trovare

Suggerimento: Il crawler rileva automaticamente i campi del modulo (email, nome utente, password) e i token di sicurezza, quindi funziona con la maggior parte dei moduli di login senza configurazione aggiuntiva.

Avanzato: nomi dei campi personalizzati

Se il tuo modulo di login utilizza nomi di campi non standard, espandi la sezione "Avanzato" e specifica:

Nome del campo utente - Il nome del campo del modulo per nome utente/email (es. user_email)
Nome del campo password - Il nome del campo del modulo per la password (es. user_pass)

Limitazioni: La scansione protetta da password funziona con moduli di login HTML standard. Potrebbe non funzionare con:

Login basati su JavaScript (React, Vue, Angular single-page apps)
Login protetti da CAPTCHA o reCAPTCHA
Autenticazione a due fattori (2FA)
Login OAuth (Google, Facebook, ecc.)
Flussi di login multi-step

Suggerimento: Invece di usare il tuo account personale, considera la creazione di un account dedicato specificamente per la scansione. Questo ti permette di controllare esattamente a cosa può accedere il crawler.

Buone pratiche

Prima della scansione

Make sure your website is accessible and pages load correctly
Check that important pages are linked from your homepage or sitemap
For password-protected crawls, verify your credentials work

Scelta delle pagine

Start with your most important pages - product pages, FAQs, services
Usa la modalità manuale se hai bisogno solo di pagine specifiche
Evita di scansionare pagine con informazioni obsolete o imprecise

Dopo la scansione

Rivedi i contenuti scansionati nella tua knowledge base
Rimuovi le pagine irrilevanti che sono state acquisite
Testa la tua IA con domande sui contenuti scansionati
Re-crawl periodically to keep content up to date

Nota: Ogni nuova scansione sostituisce quella precedente per quel sito web. La tua AI utilizzerà sempre i contenuti scansionati più recenti.

Gestione delle pagine scansionate

Dopo il completamento di una scansione, puoi visualizzare in anteprima e gestire le singole pagine dalla sezione Knowledge Base nella tua Dashboard.

Anteprima del contenuto della pagina

Vai alla tua Dashboard e apri la sezione Knowledge Base
Clicca su un elemento di scansione per aprirlo — vedrai un elenco di tutte le pagine scansionate
Click any page title to preview its extracted content
Usa il pulsante Torna alle pagine per tornare all'elenco delle pagine

Suggerimento: Visualizzare le pagine in anteprima è un ottimo modo per verificare che il crawler abbia estratto il contenuto corretto. Se una pagina sembra errata, puoi modificarla direttamente oppure eliminarla e aggiungere il contenuto manualmente.

Editing Individual Pages Starter+

Puoi modificare il contenuto estratto di qualsiasi pagina scansionata. Questo è utile per correggere problemi di formattazione, rimuovere sezioni irrilevanti o aggiungere informazioni mancanti.

Open the crawl item and click a page title to view its content
Clicca sul pulsante Modifica in cima all'anteprima
Modifica il titolo o il contenuto secondo necessità
Clicca su Salva e re-embed — gli embedding IA della pagina verranno rigenerati con il contenuto aggiornato

Nota: La modifica di una pagina re-embed solo quella pagina specifica, non l'intera scansione. Le altre pagine scansionate non vengono modificate.

Ri-scansione di pagine individuali Starter+

Se una pagina del tuo sito web è stata aggiornata, puoi ri-scansionare solo quella pagina senza ri-scansionare l'intero sito web.

Apri l'elemento di scansione dalla tua Knowledge Base
Click the re-crawl button next to the page you want to update
Conferma — la pagina verrà recuperata di nuovo e i suoi embedding aggiornati con il contenuto più recente

Suggerimento: Questo è ottimo per mantenere aggiornate le singole pagine dopo le modifiche al contenuto, senza dover ri-scansionare centinaia di pagine.

Eliminazione delle singole pagine

Puoi rimuovere pagine specifiche da una scansione senza eliminare l'intera scansione. Questo è utile per rimuovere pagine irrilevanti, duplicate o scansionate in modo errato.

Apri l'elemento di scansione dalla tua Knowledge Base
Clicca sul pulsante elimina accanto alla pagina che vuoi rimuovere
Conferma l'eliminazione — la pagina e i suoi embedding verranno rimossi permanentemente

Nota: Se elimini tutte le pagine da una scansione, l'intera voce di scansione verrà automaticamente rimossa dalla tua knowledge base.

Risoluzione dei problemi

La scansione restituisce meno pagine del previsto

Le pagine potrebbero non essere collegate da pagine raggiungibili
Alcune pagine potrebbero essere bloccate dal robots.txt
Cloudflare o altri servizi di sicurezza potrebbero bloccare il crawler
Solution: Use Manual mode to specify exact URLs

La scansione protetta da password non riesce

Verifica che le tue credenziali siano corrette
Controlla se il tuo login utilizza CAPTCHA o 2FA
Try specifying custom field names in Advanced settings
Your site might use JavaScript-based authentication (not supported)

Alternative se la scansione non funziona:

Rendi temporaneamente pubbliche le pagine, scansionale, poi riabilita la protezione
Salva le pagine come file HTML e caricale tramite Bulk Upload

Il contenuto appare incompleto

Some content might be loaded via JavaScript (not extracted)
Il contenuto potrebbe essere in immagini (non estratto come testo)
Soluzione: Aggiungi manualmente il contenuto mancante tramite caricamento di testo o PDF

Documentazione