Veebisaidi indekseerimine

Ekstraktige sisu automaatselt oma veebisaidi lehtedelt

Alusta roomamist

Ülevaade

Veebisaidi roomaja avastab ja ekstraktib automaatselt sisu teie veebisaidi mitmelt lehelt. Selle asemel, et lisada lehti ukskaupa, saate roomata kogu oma saiti (voi konkreetseid jaotisi) ja lasta kogu sisu automaatselt oma tehisintellekti teadmistebaasi lisada.

Roomaja jargib linke lehtede avastamiseks, ekstraktib tekstisisu ja tootleb koike, et teie tehisintellekt saaks vastata kusimustele teie veebisaidi kohta.

Roomamisreizhiimid

Saate valida kahe roomamisreizhiimi vahel vastavalt oma vajadustele:

Automaatne reizhiim

Roomaja alustab teie avalehelt ja avastab automaatselt lehti linkide jargimise teel. See kontrollib ka teie sitemap.xml-i, kui see on saadaval. Parim kogu veebisaidi voi selle suurte osade roomamiseks.

Koik plaanid

Manuaalne reizhiim

Maarate tapsed URL-id roomamiseks (komadega eraldatud). Roomaja kulastab ainult neid konkreetseid lehti. Parim, kui soovite teadmistebaasi lisada ainult teatud lehti.

Roomamispiirangud plaanide kaupa

Maksimaalne lehtede arv, mida saate roomata, soltub teie plaanist:

Pakett Maksimaalsed lehed Manuaalne reizhiim Parooliga kaitstud
Tasuta 50 lehte
Starter 250 lehte
Standard 1000 lehte
Pro 5000 lehte

Parooliga kaitstud lehed

Kas peate roomama sisselogimise taga olevaid lehti? Lubage valik "Parooliga kaitstud lehed", et roomata ainult liikmetele moeldud sisu, juhtpaneele voi mis tahes parooliga kaitstud alasid teie veebisaidil.

Kuidas kasutada

  1. Lubage roomamislehel luliti "Parooliga kaitstud lehed"
  2. Sisestage oma sisselogimislehe URL (nt yoursite.com/login)
  3. Sisestage oma kasutajanimi/e-post ja parool
  4. Kliki Alusta roomamist - susteem logib koigepealt sisse, seejarel roomab kaitstud lehti

Kuidas see töötab

Paroolikaitse lubamisel roomaja:

  1. Kulastab teie sisselogimislehte ja tuvastab vormivailjad automaatselt
  2. Esitab teie mandaadid (sealhulgas CSRF-tokenid)
  3. Sailitab autenditud seansi roomamise ajal
  4. Starts from where you're redirected after login (e.g., your dashboard)
  5. Avastab ja roomab koik kaitstud lehed, mida suudab leida

Vihje: Roomaja tuvastab automaatselt vormivailjad (e-post, kasutajanimi, parool) ja turvatokenid, nii et see toiotab enamiku sisselogimisvormidega ilma taiendava seadistamiseta.

Taiendavad seaded: kohandatud valjanimed

Kui teie sisselogimisvorm kasutab mittestandardseid valjanimeisi, laiendage jaotist "Taiendavad seaded" ja maarake:

  • Kasutajanime valja nimi - Vormivalja nimi kasutajanime/e-posti jaoks (nt user_email)
  • Parooli valja nimi - Vormivalja nimi parooli jaoks (nt user_pass)

Piirangud: Parooliga kaitstud roomamine toiotab standardsete HTML-sisselogimisvormidega. See ei pruugi toiotada:

  • JavaScript-based logins (React, Vue, Angular single-page apps)
  • CAPTCHA voi reCAPTCHA-ga kaitstud sisselogimised
  • Kaheastmeline autentimine (2FA)
  • OAuth-sisselogimised (Google, Facebook jne)
  • Mitmeastmelised sisselogimisvood

Vihje: Selle asemel, et kasutada oma isiklikku kontot, kaaluge roomamiseks spetsiaalselt loodud spetsiaalse konto loomist. See voiamaldab teil tapselt kontrollida, millele roomaja ligi paaseb.

Parimad tavad

Enne roomamist

  • Veenduge, et teie veebisait on kattesaadav ja lehed laadivad oigesti
  • Kontrollige, et olulised lehed on lingitud teie avalehelt voi saidikaardilt
  • For password-protected crawls, verify your credentials work

Lehtede valimine

  • Alustage oma koige olulisematest lehtedest - tootelehed, KKK-d, teenused
  • Kasutage manuaalset reizhiimi, kui vajate ainult konkreetseid lehti
  • Valgige aegunud voi ebatapese teabega lehtede roomamist

Parast roomamist

  • Vaadake roomatud sisu ule oma teadmistebaasis
  • Eemaldage koik asjakohatud lehed, mis hangiti
  • Testige oma tehisintellekti kusimustega roomatud sisu kohta
  • Roomake perioodiliselt, et hoida sisu ajakohane

Märkus: Iga uus roomamine asendab eelmise selle veebisaidi jaoks. Teie tehisintellekt kasutab alati viimasena roomatud sisu.

Roomatud lehtede haldamine

Parast roomamise loopetamist saate uiksikuid lehti eelvaadata ja hallata teadmistebaasi jaotises oma juhtpaneelil.

Lehe sisu eelvaade

  1. Minge oma juhtpaneelile ja avage jaotis Teadmistebaas
  2. Kliki roomamisuksusel selle avamiseks - naete koikide roomatud lehtede loendit
  3. Kliki mis tahes lehe pealkirjal selle ekstraktitud sisu eelvaatamiseks
  4. Kasutage nuppu Tagasi lehtede juurde, et naasta lehtede loendisse

Vihje: Lehtede eelvaatamine on suureparane viis kontrollida, kas roomaja ekstraktis oige sisu. Kui leht tundub vale, saate seda otse muuta voi kustutada ja lisada sisu kaemisitsi.

Uksikute lehtede muutmine

Saate muuta mis tahes roomatud lehe ekstraktitud sisu. See on kasulik vormingunprobleemide parandamiseks, ebaoluliste jaotiste eemaldamiseks voi puuduva teabe lisamiseks.

  1. Avage roomamisuksus ja kliki lehe pealkirjal selle sisu vaatamiseks
  2. Kliki eelvaate ulas nuppu Muuda
  3. Muutke pealkirja voi sisu vastavalt vajadusele
  4. Kliki Salvesta ja taasmanesta - lehe tehisintellekti manestused genereeritakse varskendatud sisuga uuesti

Märkus: Lehe muutmine taasmanestab ainult selle konkreetse lehe, mitte kogu roomamist. Teie teised roomatud lehed jaavad puutumata.

Üksikute lehtede uuesti roomamine

Kui teie veebisaidi lehte on uuendatud, saate roomata ainult seda lehte, ilma kogu veebisaiti uuesti roomamata.

  1. Avage roomamisuksus oma teadmistebaasist
  2. Click the re-crawl button next to the page you want to update
  3. Kinnitage — leht laetakse uuesti ja selle manused uuendatakse uusima sisuga

Vihje: See on suurepärane üksikute lehtede ajakohastamiseks pärast sisu muutmist, ilma et peaks sadu lehti uuesti roomama.

Uksikute lehtede kustutamine

Saate eemaldada konkreetseid lehti roomamisest ilma kogu roomamist kustutamata. See on kasulik ebaoluliste, duplikaat- voi valesti roomatud lehtede eemaldamiseks.

  1. Avage roomamisuksus oma teadmistebaasist
  2. Kliki eemaldatava lehe korval nuppu kustuta
  3. Kinnitage kustutamine - leht ja selle manestused eemaldatakse jaavsalt

Märkus: Kui kustutate koik lehed roomamisest, eemaldatakse kogu roomamiskirje automaatselt teie teadmistebaasist.

Veaotsing

Roomamine tagastab oodatust vahem lehti

  • Lehed ei pruugi olla lingitud avastatavatest lehtedest
  • Moned lehed voivad olla blokeeritud robots.txt poolt
  • Cloudflare voi muud turvatooteenused voivad roomaja blokeerida
  • Solution: Use Manual mode to specify exact URLs

Parooliga kaitstud roomamine ebaonnestub

  • Kontrollige, et teie mandaadid on oiged
  • Kontrollige, kas teie sisselogimine kasutab CAPTCHA-t voi 2FA-d
  • Proovige taiendavates seadetes maarata kohandatud valjanimeisi
  • Teie sait voib kasutada JavaScripti-pohist autentimist (pole toetatud)

Alternatiivid, kui roomamine ei toiota:

  • Tehke lehed ajutiselt avalikuks, roomake need ja lubage seejarel kaitse uuesti
  • Salvestage lehed HTML-failidena ja laadige need ules hulgiuleslaadimine kaudu

Sisu tundub puudulik

  • Osa sisust voib olla laaditud JavaScripti kaudu (ei ekstrakita)
  • Sisu voib olla piltides (ei ekstrakita tekstina)
  • Lahendus: Lisage puuduv sisu kaesitsi teksti- voi PDF-uleslaadimine kaudu