Websteds-crawl
Udtræk automatisk indhold fra dine websider
Oversigt
Webstedscrawleren opdager og udtrækker automatisk indhold fra flere sider på dit websted. I stedet for at tilføje sider én ad gangen kan du crawle hele dit websted (eller specifikke sektioner) og få alt indholdet tilføjet til din AI's vidensbase automatisk.
Crawleren følger links for at opdage sider, udtrækker tekstindhold og behandler alt, så din AI kan besvare spørgsmål om dit websted.
Crawl-tilstande
Du kan vælge mellem to crawl-tilstande afhængigt af dine behov:
Automatisk tilstand
Crawleren starter fra din hjemmeside og opdager automatisk sider ved at følge links. Den tjekker også din sitemap.xml, hvis den er tilgængelig. Bedst til at crawle hele dit websted eller store dele af det.
Alle planerManuel tilstand
Du angiver præcise URL'er til at crawle (kommasepareret). Crawleren besøger kun disse specifikke sider. Bedst når du kun ønsker, at visse sider tilføjes til din vidensbase.
Starter+Crawl-grænser efter plan
Det maksimale antal sider du kan crawle afhænger af din plan:
| Abonnement | Maks. sider | Manuel tilstand | Adgangskodebeskyttet |
|---|---|---|---|
| Gratis | 50 sider | ||
| Starter | 250 sider | ||
| Standard | 1.000 sider | ||
| Pro | 5.000 sider |
Adgangskodebeskyttede sider Starter+
Har du brug for at crawle sider bag et login? Aktivér indstillingen "Adgangskodebeskyttede sider" for at crawle indhold kun for medlemmer, dashboards eller andre adgangskodebeskyttede områder på dit websted.
Sådan bruges det
- Aktivér "Adgangskodebeskyttede sider" til/fra-knappen på crawl-siden
- Indtast din Login-side URL (f.eks.
yoursite.com/login) - Indtast dit Brugernavn/E-mail og Adgangskode
- Klik på Start crawling - systemet logger ind først og crawler derefter beskyttede sider
Sådan fungerer det
Når du aktiverer adgangskodebeskyttelse, vil crawleren:
- Besøge din loginside og registrere formularfelterne automatisk
- Indsende dine legitimationsoplysninger (herunder eventuelle CSRF-tokens)
- Opretholde den godkendte session under crawling
- Starte fra det sted, du omdirigeres til efter login (f.eks. dit dashboard)
- Opdage og crawle alle beskyttede sider, den kan finde
Tip: Crawleren registrerer automatisk formularfelter (e-mail, brugernavn, adgangskode) og sikkerhedstokens, så den fungerer med de fleste loginformularer uden yderligere konfiguration.
Avanceret: Brugerdefinerede feltnavne
Hvis din loginformular bruger ikke-standardiserede feltnavne, skal du udvide sektionen "Avanceret" og angive:
- Brugernavnsfeltnavn - Formularfeltnavnet for brugernavn/e-mail (f.eks.
user_email) - Adgangskodefeltnavn - Formularfeltnavnet for adgangskode (f.eks.
user_pass)
Begrænsninger: Adgangskodebeskyttet crawling fungerer med standard HTML-loginformularer. Det fungerer muligvis ikke med:
- JavaScript-baserede logins (React, Vue, Angular single-page apps)
- CAPTCHA eller reCAPTCHA-beskyttede logins
- To-faktor-godkendelse (2FA)
- OAuth-logins (Google, Facebook osv.)
- Flertrins login-flows
Tip: I stedet for at bruge din personlige konto kan du overveje at oprette en dedikeret konto specifikt til crawling. Dette giver dig kontrol over præcis, hvad crawleren kan få adgang til.
Bedste praksis
Før crawling
- Sørg for, at dit websted er tilgængeligt, og at sider indlæses korrekt
- Kontroller, at vigtige sider er linket fra din hjemmeside eller sitemap
- For password-protected crawls, verify your credentials work
Valg af sider
- Start med dine vigtigste sider - produktsider, FAQ'er, tjenester
- Brug manuel tilstand, hvis du kun har brug for specifikke sider
- Undgå at crawle sider med forældet eller unøjagtig information
Efter crawling
- Gennemgå det crawlede indhold i din vidensbase
- Fjern eventuelle irrelevante sider, der blev fanget
- Test din AI med spørgsmål om det crawlede indhold
- Gencrawl med jævne mellemrum for at holde indholdet opdateret
Bemærk: Hver ny crawl erstatter den forrige for det pågældende websted. Din AI vil altid bruge det senest crawlede indhold.
Administrer crawlede sider
Når en crawl er fuldført, kan du forhåndsvise og administrere individuelle sider fra vidensbase-sektionen på dit Dashboard.
Forhåndsvisning af sideindhold
- Gå til dit Dashboard og åbn sektionen Vidensbase
- Klik på et crawl-element for at åbne det — du ser en liste over alle crawlede sider
- Klik på en sidetitel for at forhåndsvise dens udtrukne indhold
- Brug knappen Tilbage til sider for at vende tilbage til sidelisten
Tip: Forhåndsvisning af sider er en god måde at verificere, at crawleren udtrukket det rigtige indhold. Hvis en side ser forkert ud, kan du redigere den direkte eller slette den og tilføje indholdet manuelt i stedet.
Redigering af individuelle sider Starter+
Du kan redigere det udtrukne indhold på en hvilken som helst crawlet side. Dette er nyttigt til at rette formateringsproblemer, fjerne irrelevante sektioner eller tilføje manglende oplysninger.
- Åbn crawl-elementet og klik på en sidetitel for at se dens indhold
- Klik på knappen Rediger øverst i forhåndsvisningen
- Rediger titlen eller indholdet efter behov
- Klik på Gem og gen-integrer — sidens AI-embeddings vil blive regenereret med det opdaterede indhold
Bemærk: Redigering af en side gen-integrerer kun den specifikke side, ikke hele crawlen. Dine andre crawlede sider er upåvirkede.
Gen-crawling af individuelle sider Starter+
Hvis en side på din hjemmeside er blevet opdateret, kan du gen-crawle kun den side uden at gen-crawle hele din hjemmeside.
- Åbn crawl-elementet fra din vidensbase
- Click the re-crawl button next to the page you want to update
- Bekræft — siden vil blive hentet igen og dens indlejringer opdateret med det nyeste indhold
Tip: Dette er fantastisk til at holde individuelle sider opdaterede efter indholdsændringer, uden at skulle gen-crawle hundredvis af sider.
Sletning af individuelle sider
Du kan fjerne specifikke sider fra en crawl uden at slette hele crawlen. Dette er nyttigt til at fjerne irrelevante, duplikerede eller forkert crawlede sider.
- Åbn crawl-elementet fra din vidensbase
- Klik på knappen slet ud for den side du vil fjerne
- Bekræft sletningen — siden og dens embeddings vil blive permanent fjernet
Bemærk: Hvis du sletter alle sider fra en crawl, vil hele crawl-posten automatisk blive fjernet fra din vidensbase.
Fejlfinding
Crawl returnerer færre sider end forventet
- Sider er muligvis ikke linket fra opdagelige sider
- Nogle sider kan være blokeret af robots.txt
- Cloudflare eller andre sikkerhedstjenester kan blokere crawleren
- Løsning: Brug manuel tilstand til at angive præcise URL'er
Adgangskodebeskyttet crawl mislykkes
- Verificer, at dine legitimationsoplysninger er korrekte
- Kontroller, om dit login bruger CAPTCHA eller 2FA
- Prøv at angive brugerdefinerede feltnavne i avancerede indstillinger
- Your site might use JavaScript-based authentication (not supported)
Alternativer, hvis crawling ikke virker:
- Gør midlertidigt siderne offentlige, crawl dem og aktiver derefter beskyttelsen igen
- Gem siderne som HTML-filer og upload dem via Bulk-upload
Indholdet ser ufuldstændigt ud
- Noget indhold kan være indlæst via JavaScript (ikke udtrukket)
- Indholdet kan være i billeder (ikke udtrukket som tekst)
- Løsning: Tilføj manglende indhold manuelt via tekst- eller PDF-upload