Scanare site web
Extrage automat conținutul din paginile site-ului tău
Prezentare generală
Scannerul de site-uri descoperă și extrage automat conținut din mai multe pagini ale site-ului tău. În loc să adaugi pagini una câte una, poți scana întregul site (sau secțiuni specifice) și tot conținutul va fi adăugat automat în baza de cunoștințe a AI-ului tău.
Scannerul urmează linkurile pentru a descoperi pagini, extrage conținutul text și procesează totul astfel încât AI-ul tău să poată răspunde la întrebări despre site-ul tău.
Moduri de scanare
Poți alege între două moduri de scanare în funcție de nevoile tale:
Mod automat
Scannerul pornește de la pagina ta principală și descoperă automat pagini urmând linkurile. De asemenea, verifică sitemap.xml dacă este disponibil. Cel mai bun pentru scanarea întregului site sau a unor secțiuni mari.
Toate planurileMod manual
Specifici URL-urile exacte de scanat (separate prin virgulă). Scannerul vizitează doar acele pagini specifice. Cel mai bun când dorești să adaugi doar anumite pagini în baza de cunoștințe.
Starter+Limite de scanare per plan
Numărul maxim de pagini pe care le poți scana depinde de planul tău:
| Plan | Pagini maxime | Mod manual | Protejate cu parolă |
|---|---|---|---|
| Gratuit | 50 pagini | ||
| Starter | 250 pagini | ||
| Standard | 1.000 pagini | ||
| Pro | 5.000 pagini |
Pagini protejate cu parolă Starter+
Trebuie să scanezi pagini din spatele unui login? Activează opțiunea "Pagini protejate cu parolă" pentru a scana conținut exclusiv pentru membri, tablouri de bord sau orice zone protejate cu parolă ale site-ului tău.
Cum se folosește
- Activează comutatorul "Pagini protejate cu parolă" pe pagina de scanare
- Introdu URL-ul paginii de autentificare (de ex.,
siteultau.com/login) - Introdu Numele de utilizator/E-mailul și Parola
- Dă clic pe Începe scanarea - sistemul se va autentifica mai întâi, apoi va scana paginile protejate
Cum funcționează
Când activezi protecția cu parolă, scannerul:
- Visits your login page and detects the form fields automatically
- Trimite datele tale de autentificare (inclusiv orice token-uri CSRF)
- Menține sesiunea autentificată în timpul scanării
- Starts from where you're redirected after login (e.g., your dashboard)
- Descoperă și scanează toate paginile protejate pe care le poate găsi
Sfat: Scannerul detectează automat câmpurile formularului (e-mail, nume de utilizator, parolă) și token-urile de securitate, astfel funcționează cu majoritatea formularelor de autentificare fără configurare suplimentară.
Avansat: Nume de câmpuri personalizate
Dacă formularul tău de autentificare folosește nume de câmpuri nestandardizate, extinde secțiunea "Avansat" și specifică:
- Numele câmpului utilizator - Numele câmpului din formular pentru utilizator/e-mail (de ex.,
user_email) - Numele câmpului parolă - Numele câmpului din formular pentru parolă (de ex.,
user_pass)
Limitări: Scanarea protejată cu parolă funcționează cu formulare standard de autentificare HTML. Este posibil să nu funcționeze cu:
- JavaScript-based logins (React, Vue, Angular single-page apps)
- Autentificări protejate cu CAPTCHA sau reCAPTCHA
- Autentificare cu doi factori (2FA)
- Autentificări OAuth (Google, Facebook, etc.)
- Fluxuri de autentificare cu mai mulți pași
Sfat: În loc să folosești contul tău personal, ia în considerare crearea unui cont dedicat special pentru scanare. Acest lucru îți permite să controlezi exact ce poate accesa scannerul.
Cele mai bune practici
Înainte de scanare
- Asigură-te că site-ul tău este accesibil și paginile se încarcă corect
- Check that important pages are linked from your homepage or sitemap
- For password-protected crawls, verify your credentials work
Alegerea paginilor
- Start with your most important pages - product pages, FAQs, services
- Folosește modul Manual dacă ai nevoie doar de anumite pagini
- Evită scanarea paginilor cu informații depășite sau inexacte
După scanare
- Revizuiește conținutul scanat în baza ta de cunoștințe
- Elimină orice pagini irelevante care au fost capturate
- Testează-ți AI-ul cu întrebări despre conținutul scanat
- Rescanează periodic pentru a menține conținutul actualizat
Notă: Fiecare scanare nouă înlocuiește scanarea anterioară pentru acel site. AI-ul tău va folosi întotdeauna conținutul cel mai recent scanat.
Gestionarea paginilor scanate
După finalizarea unei scanări, poți previzualiza și gestiona paginile individuale din secțiunea Bază de cunoștințe din Tabloul de bord.
Previzualizarea conținutului paginii
- Accesează Tabloul de bord și deschide secțiunea Bază de cunoștințe
- Dă clic pe un element de scanare pentru a-l deschide — vei vedea o listă cu toate paginile scanate
- Dă clic pe orice titlu de pagină pentru a previzualiza conținutul extras
- Folosește butonul Înapoi la pagini pentru a reveni la lista de pagini
Sfat: Previzualizarea paginilor este o modalitate excelentă de a verifica dacă scannerul a extras conținutul corect. Dacă o pagină arată incorect, o poți edita direct sau o poți șterge și adăuga conținutul manual.
Editarea paginilor individuale Starter+
Poți edita conținutul extras al oricărei pagini scanate. Acest lucru este util pentru corectarea problemelor de formatare, eliminarea secțiunilor irelevante sau adăugarea informațiilor lipsă.
- Open the crawl item and click a page title to view its content
- Click the Edit button at the top of the preview
- Modifică titlul sau conținutul după cum este necesar
- Dă clic pe Salvează și re-încorporează — încorporările AI ale paginii vor fi regenerate cu conținutul actualizat
Notă: Editarea unei pagini re-încorporează doar acea pagină specifică, nu întreaga scanare. Celelalte pagini scanate nu sunt afectate.
Re-scanarea paginilor individuale Starter+
Dacă o pagină de pe site-ul dumneavoastră a fost actualizată, puteți re-scana doar acea pagină fără a re-scana întregul site.
- Deschide elementul de scanare din Baza ta de cunoștințe
- Click the re-crawl button next to the page you want to update
- Confirmați — pagina va fi repreluată și încorporările sale actualizate cu cel mai recent conținut
Sfat: Aceasta este excelentă pentru menținerea la zi a paginilor individuale după modificări de conținut, fără a fi nevoie să re-scanați sute de pagini.
Ștergerea paginilor individuale
Poți elimina pagini specifice dintr-o scanare fără a șterge întreaga scanare. Acest lucru este util pentru eliminarea paginilor irelevante, duplicate sau scanate incorect.
- Deschide elementul de scanare din Baza ta de cunoștințe
- Dă clic pe butonul șterge de lângă pagina pe care dorești să o elimini
- Confirmă ștergerea — pagina și încorporările sale vor fi eliminate permanent
Notă: Dacă ștergi toate paginile dintr-o scanare, întreaga intrare de scanare va fi eliminată automat din baza ta de cunoștințe.
Depanare
Scanarea returnează mai puține pagini decât era de așteptat
- Paginile s-ar putea să nu fie legate de pagini descoperibile
- Unele pagini ar putea fi blocate de robots.txt
- Cloudflare sau alte servicii de securitate ar putea bloca scannerul
- Solution: Use Manual mode to specify exact URLs
Scanarea protejată cu parolă eșuează
- Verifică dacă datele tale de autentificare sunt corecte
- Verifică dacă autentificarea ta folosește CAPTCHA sau 2FA
- Încearcă să specifici nume de câmpuri personalizate în setările Avansate
- Your site might use JavaScript-based authentication (not supported)
Alternative dacă scanarea nu funcționează:
- Fă temporar paginile publice, scanează-le, apoi reactivează protecția
- Salvează paginile ca fișiere HTML și încarcă-le prin Încărcare în masă
Conținutul pare incomplet
- O parte din conținut ar putea fi încărcat prin JavaScript (neextras)
- Conținutul ar putea fi în imagini (neextras ca text)
- Soluție: Adaugă conținutul lipsă manual prin încărcare de text sau PDF