Torna alla Dashboard

Documentazione

Scopri come usare Asyntai

Scansione del Sito Web

Estrai automaticamente i contenuti dalle pagine del tuo sito web

Avvia la scansione

Panoramica

Il crawler del sito web scopre ed estrae automaticamente i contenuti da più pagine del tuo sito. Invece di aggiungere le pagine una per una, puoi eseguire la scansione dell'intero sito (o di sezioni specifiche) e aggiungere automaticamente tutti i contenuti alla knowledge base della tua AI.

Il crawler segue i link per scoprire le pagine, estrae il contenuto testuale ed elabora tutto affinché la tua IA possa rispondere a domande sul tuo sito web.

Modalità di scansione

You can choose between two crawl modes depending on your needs:

Modalità automatica

Il crawler parte dalla tua homepage e scopre automaticamente le pagine seguendo i link. Controlla anche il tuo sitemap.xml se disponibile. Ideale per la scansione dell'intero sito web o di ampie sezioni.

Tutti i piani

Modalità manuale

Specifichi gli URL esatti da scansionare (separati da virgola). Il crawler visita solo quelle pagine specifiche. Ideale quando vuoi aggiungere solo determinate pagine alla knowledge base.

Limiti di scansione per piano

The maximum number of pages you can crawl depends on your plan:

Piano Pagine massime Modalità manuale Protetto da password
Free 50 pagine
Starter 250 pagine
Standard 1.000 pagine
Pro 5.000 pagine

Pagine protette da password

Hai bisogno di scansionare pagine dietro un login? Abilita l'opzione "Pagine protette da password" per scansionare contenuti riservati ai membri, dashboard o qualsiasi area protetta da password del tuo sito web.

Come usare

  1. Abilita l'interruttore "Pagine protette da password" nella pagina di scansione
  2. Inserisci l'URL della pagina di login (es. yoursite.com/login)
  3. Inserisci il tuo Nome utente/Email e la Password
  4. Clicca su Avvia la scansione - il sistema effettuerà prima il login, poi scansionerà le pagine protette

Come Funziona

Quando abiliti la protezione con password, il crawler:

  1. Visits your login page and detects the form fields automatically
  2. Invia le tue credenziali (inclusi eventuali token CSRF)
  3. Mantiene la sessione autenticata durante la scansione
  4. Parte da dove vieni reindirizzato dopo il login (es. la tua dashboard)
  5. Scopre e scansiona tutte le pagine protette che riesce a trovare

Suggerimento: Il crawler rileva automaticamente i campi del modulo (email, nome utente, password) e i token di sicurezza, quindi funziona con la maggior parte dei moduli di login senza configurazione aggiuntiva.

Avanzato: nomi dei campi personalizzati

Se il tuo modulo di login utilizza nomi di campi non standard, espandi la sezione "Avanzato" e specifica:

  • Nome del campo utente - Il nome del campo del modulo per nome utente/email (es. user_email)
  • Nome del campo password - Il nome del campo del modulo per la password (es. user_pass)

Limitazioni: La scansione protetta da password funziona con moduli di login HTML standard. Potrebbe non funzionare con:

  • Login basati su JavaScript (React, Vue, Angular single-page apps)
  • Login protetti da CAPTCHA o reCAPTCHA
  • Autenticazione a due fattori (2FA)
  • Login OAuth (Google, Facebook, ecc.)
  • Flussi di login multi-step

Suggerimento: Invece di usare il tuo account personale, considera la creazione di un account dedicato specificamente per la scansione. Questo ti permette di controllare esattamente a cosa può accedere il crawler.

Buone pratiche

Prima della scansione

  • Make sure your website is accessible and pages load correctly
  • Check that important pages are linked from your homepage or sitemap
  • For password-protected crawls, verify your credentials work

Scelta delle pagine

  • Start with your most important pages - product pages, FAQs, services
  • Usa la modalità manuale se hai bisogno solo di pagine specifiche
  • Evita di scansionare pagine con informazioni obsolete o imprecise

Dopo la scansione

  • Rivedi i contenuti scansionati nella tua knowledge base
  • Rimuovi le pagine irrilevanti che sono state acquisite
  • Testa la tua IA con domande sui contenuti scansionati
  • Re-crawl periodically to keep content up to date

Nota: Ogni nuova scansione sostituisce quella precedente per quel sito web. La tua AI utilizzerà sempre i contenuti scansionati più recenti.

Gestione delle pagine scansionate

Dopo il completamento di una scansione, puoi visualizzare in anteprima e gestire le singole pagine dalla sezione Knowledge Base nella tua Dashboard.

Anteprima del contenuto della pagina

  1. Vai alla tua Dashboard e apri la sezione Knowledge Base
  2. Clicca su un elemento di scansione per aprirlo — vedrai un elenco di tutte le pagine scansionate
  3. Click any page title to preview its extracted content
  4. Usa il pulsante Torna alle pagine per tornare all'elenco delle pagine

Suggerimento: Visualizzare le pagine in anteprima è un ottimo modo per verificare che il crawler abbia estratto il contenuto corretto. Se una pagina sembra errata, puoi modificarla direttamente oppure eliminarla e aggiungere il contenuto manualmente.

Editing Individual Pages

Puoi modificare il contenuto estratto di qualsiasi pagina scansionata. Questo è utile per correggere problemi di formattazione, rimuovere sezioni irrilevanti o aggiungere informazioni mancanti.

  1. Open the crawl item and click a page title to view its content
  2. Clicca sul pulsante Modifica in cima all'anteprima
  3. Modifica il titolo o il contenuto secondo necessità
  4. Clicca su Salva e re-embed — gli embedding IA della pagina verranno rigenerati con il contenuto aggiornato

Nota: La modifica di una pagina re-embed solo quella pagina specifica, non l'intera scansione. Le altre pagine scansionate non vengono modificate.

Ri-scansione di pagine individuali

Se una pagina del tuo sito web è stata aggiornata, puoi ri-scansionare solo quella pagina senza ri-scansionare l'intero sito web.

  1. Apri l'elemento di scansione dalla tua Knowledge Base
  2. Click the re-crawl button next to the page you want to update
  3. Conferma — la pagina verrà recuperata di nuovo e i suoi embedding aggiornati con il contenuto più recente

Suggerimento: Questo è ottimo per mantenere aggiornate le singole pagine dopo le modifiche al contenuto, senza dover ri-scansionare centinaia di pagine.

Eliminazione delle singole pagine

Puoi rimuovere pagine specifiche da una scansione senza eliminare l'intera scansione. Questo è utile per rimuovere pagine irrilevanti, duplicate o scansionate in modo errato.

  1. Apri l'elemento di scansione dalla tua Knowledge Base
  2. Clicca sul pulsante elimina accanto alla pagina che vuoi rimuovere
  3. Conferma l'eliminazione — la pagina e i suoi embedding verranno rimossi permanentemente

Nota: Se elimini tutte le pagine da una scansione, l'intera voce di scansione verrà automaticamente rimossa dalla tua knowledge base.

Risoluzione dei problemi

La scansione restituisce meno pagine del previsto

  • Le pagine potrebbero non essere collegate da pagine raggiungibili
  • Alcune pagine potrebbero essere bloccate dal robots.txt
  • Cloudflare o altri servizi di sicurezza potrebbero bloccare il crawler
  • Solution: Use Manual mode to specify exact URLs

La scansione protetta da password non riesce

  • Verifica che le tue credenziali siano corrette
  • Controlla se il tuo login utilizza CAPTCHA o 2FA
  • Try specifying custom field names in Advanced settings
  • Your site might use JavaScript-based authentication (not supported)

Alternative se la scansione non funziona:

  • Rendi temporaneamente pubbliche le pagine, scansionale, poi riabilita la protezione
  • Salva le pagine come file HTML e caricale tramite Bulk Upload

Il contenuto appare incompleto

  • Some content might be loaded via JavaScript (not extracted)
  • Il contenuto potrebbe essere in immagini (non estratto come testo)
  • Soluzione: Aggiungi manualmente il contenuto mancante tramite caricamento di testo o PDF