Înapoi la tabloul de bord

Documentație

Aflați cum să utilizați Asyntai

Scanare site web

Extrage automat conținutul din paginile site-ului tău

Începe scanarea

Prezentare generală

Scannerul de site-uri descoperă și extrage automat conținut din mai multe pagini ale site-ului tău. În loc să adaugi pagini una câte una, poți scana întregul site (sau secțiuni specifice) și tot conținutul va fi adăugat automat în baza de cunoștințe a AI-ului tău.

Scannerul urmează linkurile pentru a descoperi pagini, extrage conținutul text și procesează totul astfel încât AI-ul tău să poată răspunde la întrebări despre site-ul tău.

Moduri de scanare

Poți alege între două moduri de scanare în funcție de nevoile tale:

Mod automat

Scannerul pornește de la pagina ta principală și descoperă automat pagini urmând linkurile. De asemenea, verifică sitemap.xml dacă este disponibil. Cel mai bun pentru scanarea întregului site sau a unor secțiuni mari.

Toate planurile

Mod manual

Specifici URL-urile exacte de scanat (separate prin virgulă). Scannerul vizitează doar acele pagini specifice. Cel mai bun când dorești să adaugi doar anumite pagini în baza de cunoștințe.

Limite de scanare per plan

Numărul maxim de pagini pe care le poți scana depinde de planul tău:

Plan Pagini maxime Mod manual Protejate cu parolă
Gratuit 50 pagini
Starter 250 pagini
Standard 1.000 pagini
Pro 5.000 pagini

Pagini protejate cu parolă

Trebuie să scanezi pagini din spatele unui login? Activează opțiunea "Pagini protejate cu parolă" pentru a scana conținut exclusiv pentru membri, tablouri de bord sau orice zone protejate cu parolă ale site-ului tău.

Cum se folosește

  1. Activează comutatorul "Pagini protejate cu parolă" pe pagina de scanare
  2. Introdu URL-ul paginii de autentificare (de ex., siteultau.com/login)
  3. Introdu Numele de utilizator/E-mailul și Parola
  4. Dă clic pe Începe scanarea - sistemul se va autentifica mai întâi, apoi va scana paginile protejate

Cum funcționează

Când activezi protecția cu parolă, scannerul:

  1. Visits your login page and detects the form fields automatically
  2. Trimite datele tale de autentificare (inclusiv orice token-uri CSRF)
  3. Menține sesiunea autentificată în timpul scanării
  4. Starts from where you're redirected after login (e.g., your dashboard)
  5. Descoperă și scanează toate paginile protejate pe care le poate găsi

Sfat: Scannerul detectează automat câmpurile formularului (e-mail, nume de utilizator, parolă) și token-urile de securitate, astfel funcționează cu majoritatea formularelor de autentificare fără configurare suplimentară.

Avansat: Nume de câmpuri personalizate

Dacă formularul tău de autentificare folosește nume de câmpuri nestandardizate, extinde secțiunea "Avansat" și specifică:

  • Numele câmpului utilizator - Numele câmpului din formular pentru utilizator/e-mail (de ex., user_email)
  • Numele câmpului parolă - Numele câmpului din formular pentru parolă (de ex., user_pass)

Limitări: Scanarea protejată cu parolă funcționează cu formulare standard de autentificare HTML. Este posibil să nu funcționeze cu:

  • JavaScript-based logins (React, Vue, Angular single-page apps)
  • Autentificări protejate cu CAPTCHA sau reCAPTCHA
  • Autentificare cu doi factori (2FA)
  • Autentificări OAuth (Google, Facebook, etc.)
  • Fluxuri de autentificare cu mai mulți pași

Sfat: În loc să folosești contul tău personal, ia în considerare crearea unui cont dedicat special pentru scanare. Acest lucru îți permite să controlezi exact ce poate accesa scannerul.

Cele mai bune practici

Înainte de scanare

  • Asigură-te că site-ul tău este accesibil și paginile se încarcă corect
  • Check that important pages are linked from your homepage or sitemap
  • For password-protected crawls, verify your credentials work

Alegerea paginilor

  • Start with your most important pages - product pages, FAQs, services
  • Folosește modul Manual dacă ai nevoie doar de anumite pagini
  • Evită scanarea paginilor cu informații depășite sau inexacte

După scanare

  • Revizuiește conținutul scanat în baza ta de cunoștințe
  • Elimină orice pagini irelevante care au fost capturate
  • Testează-ți AI-ul cu întrebări despre conținutul scanat
  • Rescanează periodic pentru a menține conținutul actualizat

Notă: Fiecare scanare nouă înlocuiește scanarea anterioară pentru acel site. AI-ul tău va folosi întotdeauna conținutul cel mai recent scanat.

Gestionarea paginilor scanate

După finalizarea unei scanări, poți previzualiza și gestiona paginile individuale din secțiunea Bază de cunoștințe din Tabloul de bord.

Previzualizarea conținutului paginii

  1. Accesează Tabloul de bord și deschide secțiunea Bază de cunoștințe
  2. Dă clic pe un element de scanare pentru a-l deschide — vei vedea o listă cu toate paginile scanate
  3. Dă clic pe orice titlu de pagină pentru a previzualiza conținutul extras
  4. Folosește butonul Înapoi la pagini pentru a reveni la lista de pagini

Sfat: Previzualizarea paginilor este o modalitate excelentă de a verifica dacă scannerul a extras conținutul corect. Dacă o pagină arată incorect, o poți edita direct sau o poți șterge și adăuga conținutul manual.

Editarea paginilor individuale

Poți edita conținutul extras al oricărei pagini scanate. Acest lucru este util pentru corectarea problemelor de formatare, eliminarea secțiunilor irelevante sau adăugarea informațiilor lipsă.

  1. Open the crawl item and click a page title to view its content
  2. Click the Edit button at the top of the preview
  3. Modifică titlul sau conținutul după cum este necesar
  4. Dă clic pe Salvează și re-încorporează — încorporările AI ale paginii vor fi regenerate cu conținutul actualizat

Notă: Editarea unei pagini re-încorporează doar acea pagină specifică, nu întreaga scanare. Celelalte pagini scanate nu sunt afectate.

Re-scanarea paginilor individuale

Dacă o pagină de pe site-ul dumneavoastră a fost actualizată, puteți re-scana doar acea pagină fără a re-scana întregul site.

  1. Deschide elementul de scanare din Baza ta de cunoștințe
  2. Click the re-crawl button next to the page you want to update
  3. Confirmați — pagina va fi repreluată și încorporările sale actualizate cu cel mai recent conținut

Sfat: Aceasta este excelentă pentru menținerea la zi a paginilor individuale după modificări de conținut, fără a fi nevoie să re-scanați sute de pagini.

Ștergerea paginilor individuale

Poți elimina pagini specifice dintr-o scanare fără a șterge întreaga scanare. Acest lucru este util pentru eliminarea paginilor irelevante, duplicate sau scanate incorect.

  1. Deschide elementul de scanare din Baza ta de cunoștințe
  2. Dă clic pe butonul șterge de lângă pagina pe care dorești să o elimini
  3. Confirmă ștergerea — pagina și încorporările sale vor fi eliminate permanent

Notă: Dacă ștergi toate paginile dintr-o scanare, întreaga intrare de scanare va fi eliminată automat din baza ta de cunoștințe.

Depanare

Scanarea returnează mai puține pagini decât era de așteptat

  • Paginile s-ar putea să nu fie legate de pagini descoperibile
  • Unele pagini ar putea fi blocate de robots.txt
  • Cloudflare sau alte servicii de securitate ar putea bloca scannerul
  • Solution: Use Manual mode to specify exact URLs

Scanarea protejată cu parolă eșuează

  • Verifică dacă datele tale de autentificare sunt corecte
  • Verifică dacă autentificarea ta folosește CAPTCHA sau 2FA
  • Încearcă să specifici nume de câmpuri personalizate în setările Avansate
  • Your site might use JavaScript-based authentication (not supported)

Alternative dacă scanarea nu funcționează:

  • Fă temporar paginile publice, scanează-le, apoi reactivează protecția
  • Salvează paginile ca fișiere HTML și încarcă-le prin Încărcare în masă

Conținutul pare incomplet

  • O parte din conținut ar putea fi încărcat prin JavaScript (neextras)
  • Conținutul ar putea fi în imagini (neextras ca text)
  • Soluție: Adaugă conținutul lipsă manual prin încărcare de text sau PDF