Webbplatsgenomsökning

Extrahera automatiskt innehåll från dina webbsidor

Starta crawlning

Översikt

Webbplatscrawlern upptäcker och extraherar automatiskt innehåll från flera sidor på din webbplats. Istället för att lägga till sidor en och en kan du crawla hela din webbplats (eller specifika sektioner) och låta allt innehåll läggas till i din AI:s kunskapsbas automatiskt.

Crawlern följer länkar för att hitta sidor, extraherar textinnehåll och bearbetar allt så att din AI kan svara på frågor om din webbplats.

Genomsökningslägen

Du kan välja mellan två crawl-lägen beroende på dina behov:

Automatiskt läge

Crawlern startar från din hemsida och identifierar automatiskt sidor genom att följa länkar. Den kontrollerar också din sitemap.xml om tillgänglig. Bäst för att crawla hela din webbplats eller stora delar av den.

Alla planer

Manuellt läge

Du anger exakta URL:er att crawla (kommaseparerade). Crawlern besöker bara dessa specifika sidor. Bäst när du bara vill att vissa sidor läggs till i din kunskapsbas.

Genomsökningsgränser per plan

Det maximala antalet sidor du kan crawla beror på ditt abonnemang:

Plan Max sidor Manuellt läge Lösenordsskyddad
Gratis 50 sidor
Starter 250 sidor
Standard 1 000 sidor
Pro 5 000 sidor

Lösenordsskyddade sidor

Behöver du crawla sidor bakom en inloggning? Aktivera alternativet "Lösenordsskyddade sidor" för att crawla innehåll för medlemmar, instrumentpaneler eller andra lösenordsskyddade delar av din webbplats.

Hur man använder

  1. Aktivera växeln \"Lösenordsskyddade sidor\" på genomsökningssidan
  2. Ange din inloggningssidas URL (t.ex. yoursite.com/login)
  3. Ange ditt användarnamn/e-post och lösenord
  4. Klicka på Starta crawling – systemet loggar in först och crawlar sedan skyddade sidor

Hur det fungerar

När du aktiverar lösenordsskydd kommer crawlern att:

  1. Visits your login page and detects the form fields automatically
  2. Submits your credentials (including any CSRF tokens)
  3. Upprätthåller den autentiserade sessionen under crawling
  4. Starts from where you're redirected after login (e.g., your dashboard)
  5. Hittar och genomsöker alla skyddade sidor den kan hitta

Tips: Crawlern identifierar automatiskt formulärfält (e-post, användarnamn, lösenord) och säkerhetstoken, så den fungerar med de flesta inloggningsformulär utan ytterligare konfiguration.

Avancerat: Anpassade fältnamn

Om ditt inloggningsformulär använder icke-standardiserade fältnamn, expandera avsnittet "Avancerat" och ange:

  • Användarnamsfältets namn - Formulärfältets namn för användarnamn/e-post (t.ex. user_email)
  • Lösenordsfältets namn - Formulärfältets namn för lösenord (t.ex. user_pass)

Begränsningar: Krypning med lösenordsskydd fungerar med vanliga HTML-inloggningsformulär. Det kanske inte fungerar med:

  • JavaScript-based logins (React, Vue, Angular single-page apps)
  • Inloggningar skyddade med CAPTCHA eller reCAPTCHA
  • Tvåfaktorsautentisering (2FA)
  • OAuth-inloggningar (Google, Facebook m.fl.)
  • Flerstegsinloggningsflöden

Tips: Istället för att använda ditt personliga konto bör du överväga att skapa ett dedikerat konto specifikt för crawling. Det låter dig kontrollera exakt vad crawlern kan komma åt.

Bästa praxis

Innan crawlning

  • Se till att din webbplats är tillgänglig och att sidor laddas korrekt
  • Check that important pages are linked from your homepage or sitemap
  • For password-protected crawls, verify your credentials work

Välja sidor

  • Start with your most important pages - product pages, FAQs, services
  • Använd manuellt läge om du bara behöver specifika sidor
  • Undvik att crawla sidor med föråldrad eller felaktig information

Efter crawling

  • Granska det crawlade innehållet i din kunskapsbas
  • Ta bort irrelevanta sidor som fångades
  • Testa din AI med frågor om det crawlade innehållet
  • Genomsök igen regelbundet för att hålla innehållet uppdaterat

Obs! Varje ny genomsökning ersätter den föregående för den webbplatsen. Din AI använder alltid det senast genomsökta innehållet.

Hantera crawlade sidor

Efter att en crawlning är klar kan du förhandsgranska och hantera enskilda sidor från kunskapsbasavsnittet på din instrumentpanel.

Förhandsgranskar sidinnehåll

  1. Gå till din instrumentpanel och öppna avsnittet Kunskapsbas
  2. Klicka på ett crawl-objekt för att öppna det – du ser en lista över alla crawlade sidor
  3. Click any page title to preview its extracted content
  4. Använd knappen Tillbaka till sidor för att återgå till sidlistan

Tips: Att förhandsgranska sidor är ett bra sätt att verifiera att genomsökaren extraherade rätt innehåll. Om en sida ser fel ut kan du redigera den direkt eller ta bort den och lägga till innehållet manuellt istället.

Redigera enskilda sidor Starter+

Du kan redigera det extraherade innehållet från vilken crawlad sida som helst. Detta är användbart för att åtgärda formateringsproblem, ta bort irrelevanta avsnitt eller lägga till saknad information.

  1. Open the crawl item and click a page title to view its content
  2. Click the Edit button at the top of the preview
  3. Ändra titeln eller innehållet efter behov
  4. Klicka på Spara & återinbädda – sidans AI-inbäddningar regenereras med det uppdaterade innehållet

Obs! Att redigera en sida bäddar bara in den specifika sidan på nytt, inte hela genomsökningen. Dina andra genomsökta sidor påverkas inte.

Omcrawlning av enskilda sidor

Om en sida på din webbplats har uppdaterats kan du crawla om bara den sidan utan att crawla om hela din webbplats.

  1. Öppna krypningsobjektet från din kunskapsbas
  2. Click the re-crawl button next to the page you want to update
  3. Bekräfta — sidan hämtas igen och dess inbäddningar uppdateras med det senaste innehållet

Tips: Detta är utmärkt för att hålla enskilda sidor uppdaterade efter innehållsändringar, utan att behöva crawla om hundratals sidor.

Raderar enskilda sidor

Du kan ta bort specifika sidor från en crawl utan att radera hela crawlen. Detta är användbart för att ta bort irrelevanta, duplicerade eller felaktigt crawlade sidor.

  1. Öppna krypningsobjektet från din kunskapsbas
  2. Klicka på radera-knappen bredvid sidan du vill ta bort
  3. Bekräfta borttagningen – sidan och dess inbäddningar tas bort permanent

Obs! Om du tar bort alla sidor från en krypning tas hela krypningsposten automatiskt bort från din kunskapsbas.

Felsökning

Genomsökningen returnerar färre sidor än förväntat

  • Sidor kanske inte är länkade från sökbara sidor
  • Vissa sidor kan vara blockerade av robots.txt
  • Cloudflare eller andra säkerhetstjänster kan blockera crawlern
  • Solution: Use Manual mode to specify exact URLs

Krypning med lösenordsskydd misslyckas

  • Verifiera att dina inloggningsuppgifter är korrekta
  • Kontrollera om din inloggning använder CAPTCHA eller 2FA
  • Prova att ange anpassade fältnamn i Avancerade inställningar
  • Din webbplats kan använda JavaScript-baserad autentisering (stöds ej)

Alternativ om crawling inte fungerar:

  • Gör sidorna tillfälligt offentliga, crawla dem och återaktivera sedan skyddet
  • Spara sidorna som HTML-filer och ladda upp dem via Massuppladdning

Innehållet verkar ofullständigt

  • Visst innehåll kan laddas via JavaScript (ej extraherat)
  • Innehållet kan finnas i bilder (extraheras inte som text)
  • Lösning: Lägg till saknat innehåll manuellt via text- eller PDF-uppladdning