Websteds-crawl

Udtræk automatisk indhold fra dine websider

Start crawling

Oversigt

Webstedscrawleren opdager og udtrækker automatisk indhold fra flere sider på dit websted. I stedet for at tilføje sider én ad gangen kan du crawle hele dit websted (eller specifikke sektioner) og få alt indholdet tilføjet til din AI's vidensbase automatisk.

Crawleren følger links for at opdage sider, udtrækker tekstindhold og behandler alt, så din AI kan besvare spørgsmål om dit websted.

Crawl-tilstande

Du kan vælge mellem to crawl-tilstande afhængigt af dine behov:

Automatisk tilstand

Crawleren starter fra din hjemmeside og opdager automatisk sider ved at følge links. Den tjekker også din sitemap.xml, hvis den er tilgængelig. Bedst til at crawle hele dit websted eller store dele af det.

Alle planer

Manuel tilstand

Du angiver præcise URL'er til at crawle (kommasepareret). Crawleren besøger kun disse specifikke sider. Bedst når du kun ønsker, at visse sider tilføjes til din vidensbase.

Crawl-grænser efter plan

Det maksimale antal sider du kan crawle afhænger af din plan:

Abonnement Maks. sider Manuel tilstand Adgangskodebeskyttet
Gratis 50 sider
Starter 250 sider
Standard 1.000 sider
Pro 5.000 sider

Adgangskodebeskyttede sider

Har du brug for at crawle sider bag et login? Aktivér indstillingen "Adgangskodebeskyttede sider" for at crawle indhold kun for medlemmer, dashboards eller andre adgangskodebeskyttede områder på dit websted.

Sådan bruges det

  1. Aktivér "Adgangskodebeskyttede sider" til/fra-knappen på crawl-siden
  2. Indtast din Login-side URL (f.eks. yoursite.com/login)
  3. Indtast dit Brugernavn/E-mail og Adgangskode
  4. Klik på Start crawling - systemet logger ind først og crawler derefter beskyttede sider

Sådan fungerer det

Når du aktiverer adgangskodebeskyttelse, vil crawleren:

  1. Besøge din loginside og registrere formularfelterne automatisk
  2. Indsende dine legitimationsoplysninger (herunder eventuelle CSRF-tokens)
  3. Opretholde den godkendte session under crawling
  4. Starte fra det sted, du omdirigeres til efter login (f.eks. dit dashboard)
  5. Opdage og crawle alle beskyttede sider, den kan finde

Tip: Crawleren registrerer automatisk formularfelter (e-mail, brugernavn, adgangskode) og sikkerhedstokens, så den fungerer med de fleste loginformularer uden yderligere konfiguration.

Avanceret: Brugerdefinerede feltnavne

Hvis din loginformular bruger ikke-standardiserede feltnavne, skal du udvide sektionen "Avanceret" og angive:

  • Brugernavnsfeltnavn - Formularfeltnavnet for brugernavn/e-mail (f.eks. user_email)
  • Adgangskodefeltnavn - Formularfeltnavnet for adgangskode (f.eks. user_pass)

Begrænsninger: Adgangskodebeskyttet crawling fungerer med standard HTML-loginformularer. Det fungerer muligvis ikke med:

  • JavaScript-baserede logins (React, Vue, Angular single-page apps)
  • CAPTCHA eller reCAPTCHA-beskyttede logins
  • To-faktor-godkendelse (2FA)
  • OAuth-logins (Google, Facebook osv.)
  • Flertrins login-flows

Tip: I stedet for at bruge din personlige konto kan du overveje at oprette en dedikeret konto specifikt til crawling. Dette giver dig kontrol over præcis, hvad crawleren kan få adgang til.

Bedste praksis

Før crawling

  • Sørg for, at dit websted er tilgængeligt, og at sider indlæses korrekt
  • Kontroller, at vigtige sider er linket fra din hjemmeside eller sitemap
  • For password-protected crawls, verify your credentials work

Valg af sider

  • Start med dine vigtigste sider - produktsider, FAQ'er, tjenester
  • Brug manuel tilstand, hvis du kun har brug for specifikke sider
  • Undgå at crawle sider med forældet eller unøjagtig information

Efter crawling

  • Gennemgå det crawlede indhold i din vidensbase
  • Fjern eventuelle irrelevante sider, der blev fanget
  • Test din AI med spørgsmål om det crawlede indhold
  • Gencrawl med jævne mellemrum for at holde indholdet opdateret

Bemærk: Hver ny crawl erstatter den forrige for det pågældende websted. Din AI vil altid bruge det senest crawlede indhold.

Administrer crawlede sider

Når en crawl er fuldført, kan du forhåndsvise og administrere individuelle sider fra vidensbase-sektionen på dit Dashboard.

Forhåndsvisning af sideindhold

  1. Gå til dit Dashboard og åbn sektionen Vidensbase
  2. Klik på et crawl-element for at åbne det — du ser en liste over alle crawlede sider
  3. Klik på en sidetitel for at forhåndsvise dens udtrukne indhold
  4. Brug knappen Tilbage til sider for at vende tilbage til sidelisten

Tip: Forhåndsvisning af sider er en god måde at verificere, at crawleren udtrukket det rigtige indhold. Hvis en side ser forkert ud, kan du redigere den direkte eller slette den og tilføje indholdet manuelt i stedet.

Redigering af individuelle sider

Du kan redigere det udtrukne indhold på en hvilken som helst crawlet side. Dette er nyttigt til at rette formateringsproblemer, fjerne irrelevante sektioner eller tilføje manglende oplysninger.

  1. Åbn crawl-elementet og klik på en sidetitel for at se dens indhold
  2. Klik på knappen Rediger øverst i forhåndsvisningen
  3. Rediger titlen eller indholdet efter behov
  4. Klik på Gem og gen-integrer — sidens AI-embeddings vil blive regenereret med det opdaterede indhold

Bemærk: Redigering af en side gen-integrerer kun den specifikke side, ikke hele crawlen. Dine andre crawlede sider er upåvirkede.

Gen-crawling af individuelle sider

Hvis en side på din hjemmeside er blevet opdateret, kan du gen-crawle kun den side uden at gen-crawle hele din hjemmeside.

  1. Åbn crawl-elementet fra din vidensbase
  2. Click the re-crawl button next to the page you want to update
  3. Bekræft — siden vil blive hentet igen og dens indlejringer opdateret med det nyeste indhold

Tip: Dette er fantastisk til at holde individuelle sider opdaterede efter indholdsændringer, uden at skulle gen-crawle hundredvis af sider.

Sletning af individuelle sider

Du kan fjerne specifikke sider fra en crawl uden at slette hele crawlen. Dette er nyttigt til at fjerne irrelevante, duplikerede eller forkert crawlede sider.

  1. Åbn crawl-elementet fra din vidensbase
  2. Klik på knappen slet ud for den side du vil fjerne
  3. Bekræft sletningen — siden og dens embeddings vil blive permanent fjernet

Bemærk: Hvis du sletter alle sider fra en crawl, vil hele crawl-posten automatisk blive fjernet fra din vidensbase.

Fejlfinding

Crawl returnerer færre sider end forventet

  • Sider er muligvis ikke linket fra opdagelige sider
  • Nogle sider kan være blokeret af robots.txt
  • Cloudflare eller andre sikkerhedstjenester kan blokere crawleren
  • Løsning: Brug manuel tilstand til at angive præcise URL'er

Adgangskodebeskyttet crawl mislykkes

  • Verificer, at dine legitimationsoplysninger er korrekte
  • Kontroller, om dit login bruger CAPTCHA eller 2FA
  • Prøv at angive brugerdefinerede feltnavne i avancerede indstillinger
  • Your site might use JavaScript-based authentication (not supported)

Alternativer, hvis crawling ikke virker:

  • Gør midlertidigt siderne offentlige, crawl dem og aktiver derefter beskyttelsen igen
  • Gem siderne som HTML-filer og upload dem via Bulk-upload

Indholdet ser ufuldstændigt ud

  • Noget indhold kan være indlæst via JavaScript (ikke udtrukket)
  • Indholdet kan være i billeder (ikke udtrukket som tekst)
  • Løsning: Tilføj manglende indhold manuelt via tekst- eller PDF-upload