Torna alla Dashboard

Documentazione

Scopri come usare Asyntai

Scansione del Sito Web

Estrai automaticamente i contenuti dalle pagine del tuo sito web

Avvia la scansione

Panoramica

Il crawler del sito web scopre ed estrae automaticamente i contenuti da più pagine del tuo sito. Invece di aggiungere le pagine una per una, puoi eseguire la scansione dell'intero sito (o di sezioni specifiche) e aggiungere automaticamente tutti i contenuti alla knowledge base della tua AI.

Il crawler segue i link per scoprire le pagine, estrae il contenuto testuale ed elabora tutto affinché la tua IA possa rispondere a domande sul tuo sito web.

Arricchimento automatico dei contenuti

Se il tuo sito è costruito su una piattaforma popolare come WordPress, Shopify, WooCommerce, Drupal, Squarespace o Strapi, il crawler estrae automaticamente contenuti strutturati aggiuntivi oltre alle pagine regolari — come l'intero catalogo prodotti, articoli del blog, categorie e inserzioni.

Non devi configurare nulla. Se il tuo sito è costruito su una piattaforma supportata, la tua IA ottiene automaticamente conoscenze più ricche e meglio organizzate.

Modalità di scansione

Puoi scegliere tra due modalità di scansione a seconda delle tue esigenze:

Modalità automatica

Il crawler parte dalla tua homepage e scopre automaticamente le pagine seguendo i link. Controlla anche il tuo sitemap.xml se disponibile. Ideale per la scansione dell'intero sito web o di ampie sezioni.

Tutti i piani

Modalità manuale

Specifichi gli URL esatti da scansionare (separati da virgola). Il crawler visita solo quelle pagine specifiche. Ideale quando vuoi aggiungere solo determinate pagine alla knowledge base.

Limiti di scansione per piano

Il numero massimo di pagine che puoi scansionare dipende dal tuo piano:

Piano Pagine massime Modalità manuale Protetto da password
Free 50 pagine
Starter 250 pagine
Standard 1.000 pagine
Pro 5.000 pagine

Pagine protette da password

Hai bisogno di scansionare pagine dietro un login? Abilita l'opzione "Pagine protette da password" per scansionare contenuti riservati ai membri, dashboard o qualsiasi area protetta da password del tuo sito web.

Come usare

  1. Abilita l'interruttore "Pagine protette da password" nella pagina di scansione
  2. Inserisci l'URL della pagina di login (es. yoursite.com/login)
  3. Inserisci il tuo Nome utente/Email e la Password
  4. Clicca su Avvia la scansione - il sistema effettuerà prima il login, poi scansionerà le pagine protette

Come funziona

Quando abiliti la protezione con password, il crawler:

  1. Visita la tua pagina di login e rileva automaticamente i campi del modulo
  2. Invia le tue credenziali (inclusi eventuali token CSRF)
  3. Mantiene la sessione autenticata durante la scansione
  4. Parte da dove vieni reindirizzato dopo il login (es. la tua dashboard)
  5. Scopre e scansiona tutte le pagine protette che riesce a trovare

Suggerimento: Il crawler rileva automaticamente i campi del modulo (email, nome utente, password) e i token di sicurezza, quindi funziona con la maggior parte dei moduli di login senza configurazione aggiuntiva.

Avanzato: nomi dei campi personalizzati

Se il tuo modulo di login utilizza nomi di campi non standard, espandi la sezione "Avanzato" e specifica:

  • Nome del campo utente - Il nome del campo del modulo per nome utente/email (es. user_email)
  • Nome del campo password - Il nome del campo del modulo per la password (es. user_pass)

Limitazioni: La scansione protetta da password funziona con moduli di login HTML standard. Potrebbe non funzionare con:

  • Login basati su JavaScript (React, Vue, Angular single-page apps)
  • Login protetti da CAPTCHA o reCAPTCHA
  • Autenticazione a due fattori (2FA)
  • Login OAuth (Google, Facebook, ecc.)
  • Flussi di login a più passaggi

Suggerimento: Invece di usare il tuo account personale, considera la creazione di un account dedicato specificamente per la scansione. Questo ti permette di controllare esattamente a cosa può accedere il crawler.

Buone pratiche

Prima della scansione

  • Assicurati che il tuo sito web sia accessibile e che le pagine si carichino correttamente
  • Verifica che le pagine importanti siano collegate dalla tua homepage o sitemap
  • Per le scansioni protette da password, verifica che le tue credenziali funzionino

Scelta delle pagine

  • Inizia con le pagine più importanti - pagine prodotto, FAQ, servizi
  • Usa la modalità manuale se hai bisogno solo di pagine specifiche
  • Evita di scansionare pagine con informazioni obsolete o imprecise

Dopo la scansione

  • Rivedi i contenuti scansionati nella tua knowledge base
  • Rimuovi le pagine irrilevanti che sono state acquisite
  • Testa la tua IA con domande sui contenuti scansionati
  • Esegui nuove scansioni periodicamente per mantenere i contenuti aggiornati

Nota: Ogni nuova scansione sostituisce quella precedente per quel sito web. La tua AI utilizzerà sempre i contenuti scansionati più recenti.

Gestione delle pagine scansionate

Dopo il completamento di una scansione, puoi visualizzare in anteprima e gestire le singole pagine dalla sezione Knowledge Base nella tua Dashboard.

Anteprima del contenuto della pagina

  1. Vai alla tua Dashboard e apri la sezione Knowledge Base
  2. Clicca su un elemento di scansione per aprirlo — vedrai un elenco di tutte le pagine scansionate
  3. Clicca su qualsiasi titolo di pagina per visualizzare in anteprima il contenuto estratto
  4. Usa il pulsante Torna alle pagine per tornare all'elenco delle pagine

Suggerimento: Visualizzare le pagine in anteprima è un ottimo modo per verificare che il crawler abbia estratto il contenuto corretto. Se una pagina sembra errata, puoi modificarla direttamente oppure eliminarla e aggiungere il contenuto manualmente.

Modifica di pagine individuali

Puoi modificare il contenuto estratto di qualsiasi pagina scansionata. Questo è utile per correggere problemi di formattazione, rimuovere sezioni irrilevanti o aggiungere informazioni mancanti.

  1. Apri l'elemento di scansione e clicca sul titolo di una pagina per visualizzarne il contenuto
  2. Clicca sul pulsante Modifica in cima all'anteprima
  3. Modifica il titolo o il contenuto secondo necessità
  4. Clicca su Salva e re-embed — gli embedding IA della pagina verranno rigenerati con il contenuto aggiornato

Nota: La modifica di una pagina esegue il re-embed solo di quella pagina specifica, non dell'intera scansione. Le altre pagine scansionate non vengono modificate.

Ri-scansione di pagine individuali

Se una pagina del tuo sito web è stata aggiornata, puoi ri-scansionare solo quella pagina senza ri-scansionare l'intero sito web.

  1. Apri l'elemento di scansione dalla tua Knowledge Base
  2. Clicca sul pulsante re-crawl accanto alla pagina che vuoi aggiornare
  3. Conferma — la pagina verrà recuperata di nuovo e i suoi embedding aggiornati con il contenuto più recente

Suggerimento: Questo è ottimo per mantenere aggiornate le singole pagine dopo le modifiche al contenuto, senza dover ri-scansionare centinaia di pagine.

Eliminazione delle singole pagine

Puoi rimuovere pagine specifiche da una scansione senza eliminare l'intera scansione. Questo è utile per rimuovere pagine irrilevanti, duplicate o scansionate in modo errato.

  1. Apri l'elemento di scansione dalla tua Knowledge Base
  2. Clicca sul pulsante elimina accanto alla pagina che vuoi rimuovere
  3. Conferma l'eliminazione — la pagina e i suoi embedding verranno rimossi permanentemente

Nota: Se elimini tutte le pagine da una scansione, l'intera voce di scansione verrà automaticamente rimossa dalla tua knowledge base.

Risoluzione dei problemi

La scansione restituisce meno pagine del previsto

  • Le pagine potrebbero non essere collegate da pagine raggiungibili
  • Alcune pagine potrebbero essere bloccate dal robots.txt
  • Cloudflare o altri servizi di sicurezza potrebbero bloccare il crawler
  • Soluzione: Usa la modalità Manuale per specificare gli URL esatti

La scansione protetta da password non riesce

  • Verifica che le tue credenziali siano corrette
  • Controlla se il tuo login utilizza CAPTCHA o 2FA
  • Prova a specificare nomi di campo personalizzati nelle impostazioni Avanzate
  • Il tuo sito potrebbe utilizzare un'autenticazione basata su JavaScript (non supportata)

Alternative se la scansione non funziona:

  • Rendi temporaneamente pubbliche le pagine, scansionale, poi riabilita la protezione
  • Salva le pagine come file HTML e caricale tramite Bulk Upload

Il contenuto appare incompleto

  • Alcuni contenuti potrebbero essere caricati tramite JavaScript (non estratti)
  • Il contenuto potrebbe essere in immagini (non estratto come testo)
  • Soluzione: Aggiungi manualmente il contenuto mancante tramite caricamento di testo o PDF