Nettstedgjennomsøking

Trekk ut innhold fra nettsidene dine automatisk

Oversikt

Nettstedscrawleren oppdager og trekker ut innhold fra flere sider på nettstedet ditt automatisk. I stedet for å legge til sider en etter en, kan du crawle hele nettstedet (eller bestemte deler) og få alt innholdet lagt til i AI-ens kunnskapsbase automatisk.

Crawleren følger lenker for å oppdage sider, trekker ut tekstinnhold og behandler alt slik at AI-en din kan svare på spørsmål om nettstedet ditt.

Crawlingsmoduser

Du kan velge mellom to crawlingsmoduser avhengig av dine behov:

Automatisk modus

Crawleren starter fra hjemmesiden din og oppdager sider automatisk ved å følge lenker. Den sjekker også sitemap.xml hvis tilgjengelig. Best for crawling av hele nettstedet eller store deler av det.

Alle planer

Manuell modus

Du angir eksakte URL-er som skal crawles (kommaseparert). Crawleren besøker kun disse spesifikke sidene. Best når du bare vil ha bestemte sider lagt til i kunnskapsbasen din.

Starter+

Crawlingsgrenser per plan

Maksimalt antall sider du kan crawle avhenger av planen din:

Abonnement	Maks sider	Manuell modus	Passordbeskyttet
Gratis	50 sider
Starter	250 sider
Standard	1 000 sider
Pro	5 000 sider

Passordbeskyttede sider Starter+

Trenger du å gjennomsøke sider bak en innlogging? Aktiver alternativet «Passordbeskyttede sider» for å gjennomsøke innhold kun for medlemmer, dashbord eller andre passordbeskyttede områder av nettsiden din.

Slik bruker du det

Aktiver «Passordbeskyttede sider»-bryteren på gjennomsøkingssiden
Skriv inn URL-en til innloggingssiden (f.eks. yoursite.com/login)
Skriv inn brukernavn/e-post og passord
Klikk Start crawling - systemet logger inn først, og crawler deretter beskyttede sider

Slik fungerer det

Når du aktiverer passordbeskyttelse, vil crawleren:

Besøke innloggingssiden din og oppdage skjemafeltene automatisk
Sende inn legitimasjonen din (inkludert eventuelle CSRF-tokener)
Opprettholde den autentiserte økten under crawling
Starts from where you're redirected after login (e.g., your dashboard)
Oppdage og crawle alle beskyttede sider den finner

Tips: Crawleren oppdager automatisk skjemafelter (e-post, brukernavn, passord) og sikkerhetstokener, så den fungerer med de fleste innloggingsskjemaer uten ekstra konfigurasjon.

Avansert: Egendefinerte feltnavn

Hvis innloggingsskjemaet ditt bruker ikke-standard feltnavn, utvid «Avansert»-seksjonen og spesifiser:

Feltnavn for brukernavn - Skjemafeltnavnet for brukernavn/e-post (f.eks. user_email)
Feltnavn for passord - Skjemafeltnavnet for passord (f.eks. user_pass)

Begrensninger: Passordbeskyttet crawling fungerer med standard HTML-innloggingsskjemaer. Det fungerer kanskje ikke med:

JavaScript-baserte innlogginger (React, Vue, Angular enkeltsideapper)
CAPTCHA- eller reCAPTCHA-beskyttede innlogginger
Tofaktorautentisering (2FA)
OAuth-innlogginger (Google, Facebook osv.)
Flerstegs innloggingsflyter

Tips: I stedet for å bruke din personlige konto, bør du vurdere å opprette en dedikert konto spesielt for crawling. Dette lar deg kontrollere nøyaktig hva crawleren har tilgang til.

Beste praksis

Før crawling

Sørg for at nettstedet ditt er tilgjengelig og at sidene lastes riktig
Sjekk at viktige sider er lenket fra hjemmesiden eller sidekartet ditt
For passordbeskyttede crawlinger, bekreft at legitimasjonen din fungerer

Velge sider

Start with your most important pages - product pages, FAQs, services
Bruk manuell modus hvis du bare trenger bestemte sider
Unngå å crawle sider med utdatert eller unøyaktig informasjon

Etter crawling

Gjennomgå det crawlede innholdet i kunnskapsbasen din
Fjern eventuelle irrelevante sider som ble fanget opp
Test AI-en din med spørsmål om det crawlede innholdet
Crawl på nytt jevnlig for å holde innholdet oppdatert

Merk: Hver ny crawling erstatter den forrige for det nettstedet. AI-en din vil alltid bruke det sist crawlede innholdet.

Administrere crawlede sider

Etter at en gjennomsøking er fullført, kan du forhåndsvise og administrere individuelle sider fra Kunnskapsbase-seksjonen på Dashbordet ditt.

Forhåndsvise sideinnhold

Gå til dashbordet ditt og åpne kunnskapsbase-seksjonen
Klikk på et crawlingselement for å åpne det — du ser en liste over alle crawlede sider
Klikk på en sidetittel for å forhåndsvise det uttrukne innholdet
Bruk Tilbake til sider-knappen for å gå tilbake til sidelisten

Tips: Forhåndsvisning av sider er en fin måte å bekrefte at crawleren hentet ut riktig innhold. Hvis en side ser feil ut, kan du redigere den direkte eller slette den og legge til innholdet manuelt i stedet.

Redigering av individuelle sider Starter+

Du kan redigere det uttrukne innholdet på en crawlet side. Dette er nyttig for å fikse formateringsproblemer, fjerne irrelevante seksjoner eller legge til manglende informasjon.

Åpne crawlingselementet og klikk på en sidetittel for å se innholdet
Klikk på Rediger-knappen øverst i forhåndsvisningen
Endre tittelen eller innholdet etter behov
Klikk Lagre og re-embed — sidens AI-embeddinger vil bli regenerert med det oppdaterte innholdet

Merk: Redigering av en side re-embedder kun den spesifikke siden, ikke hele crawlingen. Dine andre crawlede sider påvirkes ikke.

Re-crawling av individuelle sider Starter+

Hvis en side på nettstedet ditt har blitt oppdatert, kan du re-crawle bare den siden uten å re-crawle hele nettstedet.

Åpne crawlingselementet fra kunnskapsbasen din
Click the re-crawl button next to the page you want to update
Bekreft — siden vil bli hentet på nytt og dens innleiringer oppdatert med det nyeste innholdet

Tips: Dette er flott for å holde individuelle sider oppdatert etter innholdsendringer, uten å måtte re-crawle hundrevis av sider.

Slette individuelle sider

Du kan fjerne spesifikke sider fra en crawling uten å slette hele crawlingen. Dette er nyttig for å fjerne irrelevante, dupliserte eller feilaktig crawlede sider.

Åpne crawlingselementet fra kunnskapsbasen din
Klikk på slett-knappen ved siden av siden du vil fjerne
Bekreft slettingen — siden og dens embeddinger vil bli permanent fjernet

Merk: Hvis du sletter alle sider fra en crawling, vil hele crawlingsoppføringen bli automatisk fjernet fra kunnskapsbasen din.

Feilsøking

Crawlingen returnerer færre sider enn forventet

Sider er kanskje ikke lenket fra oppdagbare sider
Noen sider kan være blokkert av robots.txt
Cloudflare eller andre sikkerhetstjenester kan blokkere crawleren
Løsning: Bruk manuell modus for å angi eksakte URL-er

Passordbeskyttet crawling mislykkes

Bekreft at legitimasjonen din er korrekt
Sjekk om innloggingen bruker CAPTCHA eller 2FA
Prøv å angi egendefinerte feltnavn i Avanserte innstillinger
Your site might use JavaScript-based authentication (not supported)

Alternativer hvis crawling ikke fungerer:

Gjør sidene midlertidig offentlige, crawl dem, og aktiver deretter beskyttelsen igjen
Lagre sidene som HTML-filer og last dem opp via Masseopplasting

Innholdet virker ufullstendig

Noe innhold kan være lastet via JavaScript (ikke hentet ut)
Innhold kan være i bilder (ikke hentet ut som tekst)
Løsning: Legg til manglende innhold manuelt via tekst- eller PDF-opplasting

Dokumentasjon