Procházení webu
Automatická extrakce obsahu ze stránek vašeho webu
Přehled
Webový prohledávač automaticky objevuje a extrahuje obsah z více stránek na vašem webu. Místo přidávání stránek jedné po druhé můžete prohledat celý web (nebo konkrétní sekce) a nechat veškerý obsah automaticky přidat do znalostní báze vašeho AI.
Prohledávač sleduje odkazy, objevuje stránky, extrahuje textový obsah a vše zpracuje, aby vaše AI mohlo odpovídat na otázky o vašem webu.
Režimy procházení
Můžete si vybrat ze dvou režimů procházení podle svých potřeb:
Automatický režim
Prohledávač začne na vaší domovské stránce a automaticky objevuje stránky sledováním odkazů. Také zkontroluje váš sitemap.xml, pokud je k dispozici. Nejlepší pro procházení celého webu nebo jeho velkých částí.
Všechny plányManuální režim
Zadáte přesné URL adresy k procházení (oddělené čárkou). Prohledávač navštíví pouze tyto konkrétní stránky. Nejlepší, pokud chcete do znalostní báze přidat pouze určité stránky.
Starter+Limity procházení podle plánu
The maximum number of pages you can crawl depends on your plan:
| Tarif | Maximální počet stránek | Manuální režim | Chráněno heslem |
|---|---|---|---|
| Free | 50 stránek | ||
| Starter | 250 stránek | ||
| Standard | 1 000 stránek | ||
| Pro | 5 000 stránek |
Stránky chráněné heslem Starter+
Potřebujete prohledat stránky za přihlášením? Povolte možnost "Stránky chráněné heslem" pro procházení obsahu pouze pro členy, dashboardů nebo jakýchkoli heslem chráněných oblastí vašeho webu.
Jak používat
- Zapněte přepínač "Stránky chráněné heslem" na stránce procházení
- Zadejte URL přihlašovací stránky (např.
yoursite.com/login) - Zadejte své uživatelské jméno/e-mail a heslo
- Klikněte na Spustit procházení – systém se nejprve přihlásí a poté prohledá chráněné stránky
Jak to funguje
Když povolíte ochranu heslem, prohledávač:
- Visits your login page and detects the form fields automatically
- Odešle vaše přihlašovací údaje (včetně CSRF tokenů)
- Udržuje ověřenou relaci během procházení
- Starts from where you're redirected after login (e.g., your dashboard)
- Objeví a prohledá všechny chráněné stránky, které najde
Tip: Prohledávač automaticky detekuje pole formuláře (e-mail, uživatelské jméno, heslo) a bezpečnostní tokeny, takže funguje s většinou přihlašovacích formulářů bez další konfigurace.
Pokročilé: Vlastní názvy polí
Pokud váš přihlašovací formulář používá nestandardní názvy polí, rozbalte sekci "Pokročilé" a zadejte:
- Název pole pro uživatelské jméno – Název pole formuláře pro uživatelské jméno/e-mail (např.
user_email) - Název pole pro heslo – Název pole formuláře pro heslo (např.
user_pass)
Omezení: Procházení chráněné heslem funguje se standardními HTML přihlašovacími formuláři. Nemusí fungovat s:
- JavaScript-based logins (React, Vue, Angular single-page apps)
- Přihlášeními chráněnými CAPTCHA nebo reCAPTCHA
- Dvoufaktorovým ověřením (2FA)
- OAuth přihlášeními (Google, Facebook atd.)
- Vícekrokovými přihlašovacími procesy
Tip: Místo používání osobního účtu zvažte vytvoření vyhrazeného účtu speciálně pro procházení. To vám umožní přesně kontrolovat, k čemu má prohledávač přístup.
Osvědčené postupy
Před procházením
- Ujistěte se, že je váš web přístupný a stránky se správně načítají
- Check that important pages are linked from your homepage or sitemap
- For password-protected crawls, verify your credentials work
Výběr stránek
- Začněte s nejdůležitějšími stránkami – stránky produktů, FAQ, služby
- Použijte manuální režim, pokud potřebujete pouze konkrétní stránky
- Avoid crawling pages with outdated or inaccurate information
Po procházení
- Zkontrolujte prohledaný obsah ve znalostní bázi
- Odstraňte nepotřebné zachycené stránky
- Otestujte své AI otázkami o prohledaném obsahu
- Pravidelně opakujte procházení pro aktuální obsah
Poznámka: Každé nové procházení nahradí předchozí pro daný web. Vaše AI bude vždy používat napošledy prohledaný obsah.
Správa prohledaných stránek
Po dokončení procházení můžete zobrazit náhled a spravovat jednotlivé stránky v sekci Znalostní báze na vašem Dashboardu.
Náhled obsahu stránky
- Přejděte na svůj Dashboard a otevřete sekci Znalostní báze
- Klikněte na položku procházení, abyste ji otevřeli – uvidíte seznam všech prohledaných stránek
- Klikněte na název libovolné stránky pro zobrazení extrahovaného obsahu
- Použijte tlačítko Zpět na stránky pro návrat na seznam stránek
Tip: Náhled stránek je skvělý způsob, jak ověřit, že prohledávač extrahoval správný obsah. Pokud stránka vypadá špatně, můžete ji přímo upravit nebo smazat a přidat obsah ručně.
Úprava jednotlivých stránek Starter+
Můžete upravit extrahovaný obsah libovolné prohledané stránky. To je užitečné pro opravu formátování, odstranění nepodstatných sekcí nebo přidání chybějících informací.
- Open the crawl item and click a page title to view its content
- Klikněte na tlačítko Upravit v horní části náhledu
- Upravte název nebo obsah podle potřeby
- Klikněte na Uložit a znovu vložit – AI embeddingy stránky budou znovu vygenerovány s aktualizovaným obsahem
Poznámka: Úprava stránky znovu vloží pouze tuto konkrétní stránku, nikoli celé procházení. Ostatní prohledané stránky nejsou ovlivněny.
Opětovné prohledávání jednotlivých stránek Starter+
Pokud byla stránka na vašem webu aktualizována, můžete znovu prohledat pouze tuto stránku, aniž byste museli prohledávat celý web.
- Otevřete položku procházení ze své znalostní báze
- Click the re-crawl button next to the page you want to update
- Potvrdit — stránka bude znovu načtena a její embeddingy aktualizovány nejnovějším obsahem
Tip: To je skvělé pro udržování jednotlivých stránek aktuálních po změnách obsahu, aniž byste museli znovu prohledávat stovky stránek.
Mazání jednotlivých stránek
Můžete odstranit konkrétní stránky z procházení bez smazání celého procházení. To je užitečné pro odstranění nepodstatných, duplicitních nebo nesprávně prohledaných stránek.
- Otevřete položku procházení ze své znalostní báze
- Klikněte na tlačítko smazat vedle stránky, kterou chcete odstranit
- Potvrďte smazání – stránka a její embeddingy budou trvale odstraněny
Poznámka: Pokud smažete všechny stránky z procházení, celý záznam procházení bude automaticky odstraněn z vaší znalostní báze.
Řešení problémů
Procházení vrátí méně stránek, než se očekávalo
- Stránky nemusí být odkazovány z objevitelných stránek
- Některé stránky mohou být blokovány souborem robots.txt
- Cloudflare nebo jiné bezpečnostní služby mohou blokovat prohledávač
- Solution: Use Manual mode to specify exact URLs
Procházení chráněné heslem selhává
- Ověřte, že vaše přihlašovací údaje jsou správné
- Zkontrolujte, zda vaše přihlášení používá CAPTCHA nebo 2FA
- Zkuste zadat vlastní názvy polí v Pokročilém nastavení
- Your site might use JavaScript-based authentication (not supported)
Alternativy, pokud procházení nefunguje:
- Dočasně zpřístupněte stránky veřejně, prohledejte je a poté znovu zapněte ochranu
- Uložte stránky jako HTML soubory a nahrajte je přes Hromadné nahrání
Obsah se zdá neúplný
- Některý obsah může být načten přes JavaScript (není extrahován)
- Obsah může být v obrázcích (není extrahován jako text)
- Řešení: Přidejte chybějící obsah ručně přes nahrání textu nebo PDF