Procházení webu

Automatická extrakce obsahu ze stránek vašeho webu

Spustit procházení

Přehled

Webový prohledávač automaticky objevuje a extrahuje obsah z více stránek na vašem webu. Místo přidávání stránek jedné po druhé můžete prohledat celý web (nebo konkrétní sekce) a nechat veškerý obsah automaticky přidat do znalostní báze vašeho AI.

Prohledávač sleduje odkazy, objevuje stránky, extrahuje textový obsah a vše zpracuje, aby vaše AI mohlo odpovídat na otázky o vašem webu.

Režimy procházení

Můžete si vybrat ze dvou režimů procházení podle svých potřeb:

Automatický režim

Prohledávač začne na vaší domovské stránce a automaticky objevuje stránky sledováním odkazů. Také zkontroluje váš sitemap.xml, pokud je k dispozici. Nejlepší pro procházení celého webu nebo jeho velkých částí.

Všechny plány

Manuální režim

Zadáte přesné URL adresy k procházení (oddělené čárkou). Prohledávač navštíví pouze tyto konkrétní stránky. Nejlepší, pokud chcete do znalostní báze přidat pouze určité stránky.

Limity procházení podle plánu

The maximum number of pages you can crawl depends on your plan:

Tarif Maximální počet stránek Manuální režim Chráněno heslem
Free 50 stránek
Starter 250 stránek
Standard 1 000 stránek
Pro 5 000 stránek

Stránky chráněné heslem

Potřebujete prohledat stránky za přihlášením? Povolte možnost "Stránky chráněné heslem" pro procházení obsahu pouze pro členy, dashboardů nebo jakýchkoli heslem chráněných oblastí vašeho webu.

Jak používat

  1. Zapněte přepínač "Stránky chráněné heslem" na stránce procházení
  2. Zadejte URL přihlašovací stránky (např. yoursite.com/login)
  3. Zadejte své uživatelské jméno/e-mail a heslo
  4. Klikněte na Spustit procházení – systém se nejprve přihlásí a poté prohledá chráněné stránky

Jak to funguje

Když povolíte ochranu heslem, prohledávač:

  1. Visits your login page and detects the form fields automatically
  2. Odešle vaše přihlašovací údaje (včetně CSRF tokenů)
  3. Udržuje ověřenou relaci během procházení
  4. Starts from where you're redirected after login (e.g., your dashboard)
  5. Objeví a prohledá všechny chráněné stránky, které najde

Tip: Prohledávač automaticky detekuje pole formuláře (e-mail, uživatelské jméno, heslo) a bezpečnostní tokeny, takže funguje s většinou přihlašovacích formulářů bez další konfigurace.

Pokročilé: Vlastní názvy polí

Pokud váš přihlašovací formulář používá nestandardní názvy polí, rozbalte sekci "Pokročilé" a zadejte:

  • Název pole pro uživatelské jméno – Název pole formuláře pro uživatelské jméno/e-mail (např. user_email)
  • Název pole pro heslo – Název pole formuláře pro heslo (např. user_pass)

Omezení: Procházení chráněné heslem funguje se standardními HTML přihlašovacími formuláři. Nemusí fungovat s:

  • JavaScript-based logins (React, Vue, Angular single-page apps)
  • Přihlášeními chráněnými CAPTCHA nebo reCAPTCHA
  • Dvoufaktorovým ověřením (2FA)
  • OAuth přihlášeními (Google, Facebook atd.)
  • Vícekrokovými přihlašovacími procesy

Tip: Místo používání osobního účtu zvažte vytvoření vyhrazeného účtu speciálně pro procházení. To vám umožní přesně kontrolovat, k čemu má prohledávač přístup.

Osvědčené postupy

Před procházením

  • Ujistěte se, že je váš web přístupný a stránky se správně načítají
  • Check that important pages are linked from your homepage or sitemap
  • For password-protected crawls, verify your credentials work

Výběr stránek

  • Začněte s nejdůležitějšími stránkami – stránky produktů, FAQ, služby
  • Použijte manuální režim, pokud potřebujete pouze konkrétní stránky
  • Avoid crawling pages with outdated or inaccurate information

Po procházení

  • Zkontrolujte prohledaný obsah ve znalostní bázi
  • Odstraňte nepotřebné zachycené stránky
  • Otestujte své AI otázkami o prohledaném obsahu
  • Pravidelně opakujte procházení pro aktuální obsah

Poznámka: Každé nové procházení nahradí předchozí pro daný web. Vaše AI bude vždy používat napošledy prohledaný obsah.

Správa prohledaných stránek

Po dokončení procházení můžete zobrazit náhled a spravovat jednotlivé stránky v sekci Znalostní báze na vašem Dashboardu.

Náhled obsahu stránky

  1. Přejděte na svůj Dashboard a otevřete sekci Znalostní báze
  2. Klikněte na položku procházení, abyste ji otevřeli – uvidíte seznam všech prohledaných stránek
  3. Klikněte na název libovolné stránky pro zobrazení extrahovaného obsahu
  4. Použijte tlačítko Zpět na stránky pro návrat na seznam stránek

Tip: Náhled stránek je skvělý způsob, jak ověřit, že prohledávač extrahoval správný obsah. Pokud stránka vypadá špatně, můžete ji přímo upravit nebo smazat a přidat obsah ručně.

Úprava jednotlivých stránek

Můžete upravit extrahovaný obsah libovolné prohledané stránky. To je užitečné pro opravu formátování, odstranění nepodstatných sekcí nebo přidání chybějících informací.

  1. Open the crawl item and click a page title to view its content
  2. Klikněte na tlačítko Upravit v horní části náhledu
  3. Upravte název nebo obsah podle potřeby
  4. Klikněte na Uložit a znovu vložit – AI embeddingy stránky budou znovu vygenerovány s aktualizovaným obsahem

Poznámka: Úprava stránky znovu vloží pouze tuto konkrétní stránku, nikoli celé procházení. Ostatní prohledané stránky nejsou ovlivněny.

Opětovné prohledávání jednotlivých stránek

Pokud byla stránka na vašem webu aktualizována, můžete znovu prohledat pouze tuto stránku, aniž byste museli prohledávat celý web.

  1. Otevřete položku procházení ze své znalostní báze
  2. Click the re-crawl button next to the page you want to update
  3. Potvrdit — stránka bude znovu načtena a její embeddingy aktualizovány nejnovějším obsahem

Tip: To je skvělé pro udržování jednotlivých stránek aktuálních po změnách obsahu, aniž byste museli znovu prohledávat stovky stránek.

Mazání jednotlivých stránek

Můžete odstranit konkrétní stránky z procházení bez smazání celého procházení. To je užitečné pro odstranění nepodstatných, duplicitních nebo nesprávně prohledaných stránek.

  1. Otevřete položku procházení ze své znalostní báze
  2. Klikněte na tlačítko smazat vedle stránky, kterou chcete odstranit
  3. Potvrďte smazání – stránka a její embeddingy budou trvale odstraněny

Poznámka: Pokud smažete všechny stránky z procházení, celý záznam procházení bude automaticky odstraněn z vaší znalostní báze.

Řešení problémů

Procházení vrátí méně stránek, než se očekávalo

  • Stránky nemusí být odkazovány z objevitelných stránek
  • Některé stránky mohou být blokovány souborem robots.txt
  • Cloudflare nebo jiné bezpečnostní služby mohou blokovat prohledávač
  • Solution: Use Manual mode to specify exact URLs

Procházení chráněné heslem selhává

  • Ověřte, že vaše přihlašovací údaje jsou správné
  • Zkontrolujte, zda vaše přihlášení používá CAPTCHA nebo 2FA
  • Zkuste zadat vlastní názvy polí v Pokročilém nastavení
  • Your site might use JavaScript-based authentication (not supported)

Alternativy, pokud procházení nefunguje:

  • Dočasně zpřístupněte stránky veřejně, prohledejte je a poté znovu zapněte ochranu
  • Uložte stránky jako HTML soubory a nahrajte je přes Hromadné nahrání

Obsah se zdá neúplný

  • Některý obsah může být načten přes JavaScript (není extrahován)
  • Obsah může být v obrázcích (není extrahován jako text)
  • Řešení: Přidejte chybějící obsah ručně přes nahrání textu nebo PDF