Nettstedgjennomsøking

Trekk ut innhold fra nettsidene dine automatisk

Start crawling

Oversikt

Nettstedscrawleren oppdager og trekker ut innhold fra flere sider på nettstedet ditt automatisk. I stedet for å legge til sider en etter en, kan du crawle hele nettstedet (eller bestemte deler) og få alt innholdet lagt til i AI-ens kunnskapsbase automatisk.

Crawleren følger lenker for å oppdage sider, trekker ut tekstinnhold og behandler alt slik at AI-en din kan svare på spørsmål om nettstedet ditt.

Crawlingsmoduser

Du kan velge mellom to crawlingsmoduser avhengig av dine behov:

Automatisk modus

Crawleren starter fra hjemmesiden din og oppdager sider automatisk ved å følge lenker. Den sjekker også sitemap.xml hvis tilgjengelig. Best for crawling av hele nettstedet eller store deler av det.

Alle planer

Manuell modus

Du angir eksakte URL-er som skal crawles (kommaseparert). Crawleren besøker kun disse spesifikke sidene. Best når du bare vil ha bestemte sider lagt til i kunnskapsbasen din.

Crawlingsgrenser per plan

Maksimalt antall sider du kan crawle avhenger av planen din:

Abonnement Maks sider Manuell modus Passordbeskyttet
Gratis 50 sider
Starter 250 sider
Standard 1 000 sider
Pro 5 000 sider

Passordbeskyttede sider

Trenger du å gjennomsøke sider bak en innlogging? Aktiver alternativet «Passordbeskyttede sider» for å gjennomsøke innhold kun for medlemmer, dashbord eller andre passordbeskyttede områder av nettsiden din.

Slik bruker du det

  1. Aktiver «Passordbeskyttede sider»-bryteren på gjennomsøkingssiden
  2. Skriv inn URL-en til innloggingssiden (f.eks. yoursite.com/login)
  3. Skriv inn brukernavn/e-post og passord
  4. Klikk Start crawling - systemet logger inn først, og crawler deretter beskyttede sider

Slik fungerer det

Når du aktiverer passordbeskyttelse, vil crawleren:

  1. Besøke innloggingssiden din og oppdage skjemafeltene automatisk
  2. Sende inn legitimasjonen din (inkludert eventuelle CSRF-tokener)
  3. Opprettholde den autentiserte økten under crawling
  4. Starts from where you're redirected after login (e.g., your dashboard)
  5. Oppdage og crawle alle beskyttede sider den finner

Tips: Crawleren oppdager automatisk skjemafelter (e-post, brukernavn, passord) og sikkerhetstokener, så den fungerer med de fleste innloggingsskjemaer uten ekstra konfigurasjon.

Avansert: Egendefinerte feltnavn

Hvis innloggingsskjemaet ditt bruker ikke-standard feltnavn, utvid «Avansert»-seksjonen og spesifiser:

  • Feltnavn for brukernavn - Skjemafeltnavnet for brukernavn/e-post (f.eks. user_email)
  • Feltnavn for passord - Skjemafeltnavnet for passord (f.eks. user_pass)

Begrensninger: Passordbeskyttet crawling fungerer med standard HTML-innloggingsskjemaer. Det fungerer kanskje ikke med:

  • JavaScript-baserte innlogginger (React, Vue, Angular enkeltsideapper)
  • CAPTCHA- eller reCAPTCHA-beskyttede innlogginger
  • Tofaktorautentisering (2FA)
  • OAuth-innlogginger (Google, Facebook osv.)
  • Flerstegs innloggingsflyter

Tips: I stedet for å bruke din personlige konto, bør du vurdere å opprette en dedikert konto spesielt for crawling. Dette lar deg kontrollere nøyaktig hva crawleren har tilgang til.

Beste praksis

Før crawling

  • Sørg for at nettstedet ditt er tilgjengelig og at sidene lastes riktig
  • Sjekk at viktige sider er lenket fra hjemmesiden eller sidekartet ditt
  • For passordbeskyttede crawlinger, bekreft at legitimasjonen din fungerer

Velge sider

  • Start with your most important pages - product pages, FAQs, services
  • Bruk manuell modus hvis du bare trenger bestemte sider
  • Unngå å crawle sider med utdatert eller unøyaktig informasjon

Etter crawling

  • Gjennomgå det crawlede innholdet i kunnskapsbasen din
  • Fjern eventuelle irrelevante sider som ble fanget opp
  • Test AI-en din med spørsmål om det crawlede innholdet
  • Crawl på nytt jevnlig for å holde innholdet oppdatert

Merk: Hver ny crawling erstatter den forrige for det nettstedet. AI-en din vil alltid bruke det sist crawlede innholdet.

Administrere crawlede sider

Etter at en gjennomsøking er fullført, kan du forhåndsvise og administrere individuelle sider fra Kunnskapsbase-seksjonen på Dashbordet ditt.

Forhåndsvise sideinnhold

  1. Gå til dashbordet ditt og åpne kunnskapsbase-seksjonen
  2. Klikk på et crawlingselement for å åpne det — du ser en liste over alle crawlede sider
  3. Klikk på en sidetittel for å forhåndsvise det uttrukne innholdet
  4. Bruk Tilbake til sider-knappen for å gå tilbake til sidelisten

Tips: Forhåndsvisning av sider er en fin måte å bekrefte at crawleren hentet ut riktig innhold. Hvis en side ser feil ut, kan du redigere den direkte eller slette den og legge til innholdet manuelt i stedet.

Redigering av individuelle sider

Du kan redigere det uttrukne innholdet på en crawlet side. Dette er nyttig for å fikse formateringsproblemer, fjerne irrelevante seksjoner eller legge til manglende informasjon.

  1. Åpne crawlingselementet og klikk på en sidetittel for å se innholdet
  2. Klikk på Rediger-knappen øverst i forhåndsvisningen
  3. Endre tittelen eller innholdet etter behov
  4. Klikk Lagre og re-embed — sidens AI-embeddinger vil bli regenerert med det oppdaterte innholdet

Merk: Redigering av en side re-embedder kun den spesifikke siden, ikke hele crawlingen. Dine andre crawlede sider påvirkes ikke.

Re-crawling av individuelle sider

Hvis en side på nettstedet ditt har blitt oppdatert, kan du re-crawle bare den siden uten å re-crawle hele nettstedet.

  1. Åpne crawlingselementet fra kunnskapsbasen din
  2. Click the re-crawl button next to the page you want to update
  3. Bekreft — siden vil bli hentet på nytt og dens innleiringer oppdatert med det nyeste innholdet

Tips: Dette er flott for å holde individuelle sider oppdatert etter innholdsendringer, uten å måtte re-crawle hundrevis av sider.

Slette individuelle sider

Du kan fjerne spesifikke sider fra en crawling uten å slette hele crawlingen. Dette er nyttig for å fjerne irrelevante, dupliserte eller feilaktig crawlede sider.

  1. Åpne crawlingselementet fra kunnskapsbasen din
  2. Klikk på slett-knappen ved siden av siden du vil fjerne
  3. Bekreft slettingen — siden og dens embeddinger vil bli permanent fjernet

Merk: Hvis du sletter alle sider fra en crawling, vil hele crawlingsoppføringen bli automatisk fjernet fra kunnskapsbasen din.

Feilsøking

Crawlingen returnerer færre sider enn forventet

  • Sider er kanskje ikke lenket fra oppdagbare sider
  • Noen sider kan være blokkert av robots.txt
  • Cloudflare eller andre sikkerhetstjenester kan blokkere crawleren
  • Løsning: Bruk manuell modus for å angi eksakte URL-er

Passordbeskyttet crawling mislykkes

  • Bekreft at legitimasjonen din er korrekt
  • Sjekk om innloggingen bruker CAPTCHA eller 2FA
  • Prøv å angi egendefinerte feltnavn i Avanserte innstillinger
  • Your site might use JavaScript-based authentication (not supported)

Alternativer hvis crawling ikke fungerer:

  • Gjør sidene midlertidig offentlige, crawl dem, og aktiver deretter beskyttelsen igjen
  • Lagre sidene som HTML-filer og last dem opp via Masseopplasting

Innholdet virker ufullstendig

  • Noe innhold kan være lastet via JavaScript (ikke hentet ut)
  • Innhold kan være i bilder (ikke hentet ut som tekst)
  • Løsning: Legg til manglende innhold manuelt via tekst- eller PDF-opplasting