Websteds-crawl

Udtræk automatisk indhold fra dine websider

Oversigt

Webstedscrawleren opdager og udtrækker automatisk indhold fra flere sider på dit websted. I stedet for at tilføje sider én ad gangen kan du crawle hele dit websted (eller specifikke sektioner) og få alt indholdet tilføjet til din AI's vidensbase automatisk.

Crawleren følger links for at opdage sider, udtrækker tekstindhold og behandler alt, så din AI kan besvare spørgsmål om dit websted.

Crawl-tilstande

Du kan vælge mellem to crawl-tilstande afhængigt af dine behov:

Automatisk tilstand

Crawleren starter fra din hjemmeside og opdager automatisk sider ved at følge links. Den tjekker også din sitemap.xml, hvis den er tilgængelig. Bedst til at crawle hele dit websted eller store dele af det.

Alle planer

Manuel tilstand

Du angiver præcise URL'er til at crawle (kommasepareret). Crawleren besøger kun disse specifikke sider. Bedst når du kun ønsker, at visse sider tilføjes til din vidensbase.

Starter+

Crawl-grænser efter plan

Det maksimale antal sider du kan crawle afhænger af din plan:

Abonnement	Maks. sider	Manuel tilstand	Adgangskodebeskyttet
Gratis	50 sider
Starter	250 sider
Standard	1.000 sider
Pro	5.000 sider

Adgangskodebeskyttede sider Starter+

Har du brug for at crawle sider bag et login? Aktivér indstillingen "Adgangskodebeskyttede sider" for at crawle indhold kun for medlemmer, dashboards eller andre adgangskodebeskyttede områder på dit websted.

Sådan bruges det

Aktivér "Adgangskodebeskyttede sider" til/fra-knappen på crawl-siden
Indtast din Login-side URL (f.eks. yoursite.com/login)
Indtast dit Brugernavn/E-mail og Adgangskode
Klik på Start crawling - systemet logger ind først og crawler derefter beskyttede sider

Sådan fungerer det

Når du aktiverer adgangskodebeskyttelse, vil crawleren:

Besøge din loginside og registrere formularfelterne automatisk
Indsende dine legitimationsoplysninger (herunder eventuelle CSRF-tokens)
Opretholde den godkendte session under crawling
Starte fra det sted, du omdirigeres til efter login (f.eks. dit dashboard)
Opdage og crawle alle beskyttede sider, den kan finde

Tip: Crawleren registrerer automatisk formularfelter (e-mail, brugernavn, adgangskode) og sikkerhedstokens, så den fungerer med de fleste loginformularer uden yderligere konfiguration.

Avanceret: Brugerdefinerede feltnavne

Hvis din loginformular bruger ikke-standardiserede feltnavne, skal du udvide sektionen "Avanceret" og angive:

Brugernavnsfeltnavn - Formularfeltnavnet for brugernavn/e-mail (f.eks. user_email)
Adgangskodefeltnavn - Formularfeltnavnet for adgangskode (f.eks. user_pass)

Begrænsninger: Adgangskodebeskyttet crawling fungerer med standard HTML-loginformularer. Det fungerer muligvis ikke med:

JavaScript-baserede logins (React, Vue, Angular single-page apps)
CAPTCHA eller reCAPTCHA-beskyttede logins
To-faktor-godkendelse (2FA)
OAuth-logins (Google, Facebook osv.)
Flertrins login-flows

Tip: I stedet for at bruge din personlige konto kan du overveje at oprette en dedikeret konto specifikt til crawling. Dette giver dig kontrol over præcis, hvad crawleren kan få adgang til.

Bedste praksis

Før crawling

Sørg for, at dit websted er tilgængeligt, og at sider indlæses korrekt
Kontroller, at vigtige sider er linket fra din hjemmeside eller sitemap
For password-protected crawls, verify your credentials work

Valg af sider

Start med dine vigtigste sider - produktsider, FAQ'er, tjenester
Brug manuel tilstand, hvis du kun har brug for specifikke sider
Undgå at crawle sider med forældet eller unøjagtig information

Efter crawling

Gennemgå det crawlede indhold i din vidensbase
Fjern eventuelle irrelevante sider, der blev fanget
Test din AI med spørgsmål om det crawlede indhold
Gencrawl med jævne mellemrum for at holde indholdet opdateret

Bemærk: Hver ny crawl erstatter den forrige for det pågældende websted. Din AI vil altid bruge det senest crawlede indhold.

Administrer crawlede sider

Når en crawl er fuldført, kan du forhåndsvise og administrere individuelle sider fra vidensbase-sektionen på dit Dashboard.

Forhåndsvisning af sideindhold

Gå til dit Dashboard og åbn sektionen Vidensbase
Klik på et crawl-element for at åbne det — du ser en liste over alle crawlede sider
Klik på en sidetitel for at forhåndsvise dens udtrukne indhold
Brug knappen Tilbage til sider for at vende tilbage til sidelisten

Tip: Forhåndsvisning af sider er en god måde at verificere, at crawleren udtrukket det rigtige indhold. Hvis en side ser forkert ud, kan du redigere den direkte eller slette den og tilføje indholdet manuelt i stedet.

Redigering af individuelle sider Starter+

Du kan redigere det udtrukne indhold på en hvilken som helst crawlet side. Dette er nyttigt til at rette formateringsproblemer, fjerne irrelevante sektioner eller tilføje manglende oplysninger.

Åbn crawl-elementet og klik på en sidetitel for at se dens indhold
Klik på knappen Rediger øverst i forhåndsvisningen
Rediger titlen eller indholdet efter behov
Klik på Gem og gen-integrer — sidens AI-embeddings vil blive regenereret med det opdaterede indhold

Bemærk: Redigering af en side gen-integrerer kun den specifikke side, ikke hele crawlen. Dine andre crawlede sider er upåvirkede.

Gen-crawling af individuelle sider Starter+

Hvis en side på din hjemmeside er blevet opdateret, kan du gen-crawle kun den side uden at gen-crawle hele din hjemmeside.

Åbn crawl-elementet fra din vidensbase
Click the re-crawl button next to the page you want to update
Bekræft — siden vil blive hentet igen og dens indlejringer opdateret med det nyeste indhold

Tip: Dette er fantastisk til at holde individuelle sider opdaterede efter indholdsændringer, uden at skulle gen-crawle hundredvis af sider.

Sletning af individuelle sider

Du kan fjerne specifikke sider fra en crawl uden at slette hele crawlen. Dette er nyttigt til at fjerne irrelevante, duplikerede eller forkert crawlede sider.

Åbn crawl-elementet fra din vidensbase
Klik på knappen slet ud for den side du vil fjerne
Bekræft sletningen — siden og dens embeddings vil blive permanent fjernet

Bemærk: Hvis du sletter alle sider fra en crawl, vil hele crawl-posten automatisk blive fjernet fra din vidensbase.

Fejlfinding

Crawl returnerer færre sider end forventet

Sider er muligvis ikke linket fra opdagelige sider
Nogle sider kan være blokeret af robots.txt
Cloudflare eller andre sikkerhedstjenester kan blokere crawleren
Løsning: Brug manuel tilstand til at angive præcise URL'er

Adgangskodebeskyttet crawl mislykkes

Verificer, at dine legitimationsoplysninger er korrekte
Kontroller, om dit login bruger CAPTCHA eller 2FA
Prøv at angive brugerdefinerede feltnavne i avancerede indstillinger
Your site might use JavaScript-based authentication (not supported)

Alternativer, hvis crawling ikke virker:

Gør midlertidigt siderne offentlige, crawl dem og aktiver derefter beskyttelsen igen
Gem siderne som HTML-filer og upload dem via Bulk-upload

Indholdet ser ufuldstændigt ud

Noget indhold kan være indlæst via JavaScript (ikke udtrukket)
Indholdet kan være i billeder (ikke udtrukket som tekst)
Løsning: Tilføj manglende indhold manuelt via tekst- eller PDF-upload

Dokumentation