Crawlowanie strony
Automatycznie wyodrębniaj treść ze stron Twojej witryny
Przegląd
Robot indeksujący automatycznie odkrywa i wyodrębnia treść z wielu stron Twojej witryny. Zamiast dodawać strony pojedynczo, możesz zaindeksować całą witrynę (lub określone sekcję) i automatycznie dodać całą treść do bazy wiedzy Twojej AI.
Robot indeksujący podąża za linkami, aby odkrywać strony, wyodrębnia treść tekstową i przetwarza wszystko, aby Twoja AI mogła odpowiadać na pytania dotyczące Twojej witryny.
Tryby indeksowania
You can choose between two crawl modes depending on your needs:
Tryb automatyczny
Robot indeksujący rozpoczyna od strony głównej i automatycznie odkrywa strony, podążając za linkami. Sprawdza również plik sitemap.xml, jeśli jest dostępny. Najlepszy do indeksowania całej witryny lub jej dużych sekcji.
Wszystkie planyTryb ręczny
Określasz dokładne adresy URL do zaindeksowania (rozdzielone przecinkami). Robot indeksujący odwiedza tylko te konkretne strony. Najlepszy, gdy chcesz dodać do bazy wiedzy tylko określone strony.
Starter+Limity indeksowania według planu
The maximum number of pages you can crawl depends on your plan:
| Plan | Maks. stron | Tryb ręczny | Chronione hasłem |
|---|---|---|---|
| Darmowy | 50 stron | ||
| Starter | 250 stron | ||
| Standard | 1 000 stron | ||
| Pro | 5 000 stron |
Strony chronione hasłem Starter+
Potrzebujesz zaindeksować strony za logowaniem? Włącz opcję "Strony chronione hasłem", aby indeksować treści dostępne tylko dla członków, panele kontrolne lub dowolne obszary Twojej witryny chronione hasłem.
Jak używać
- Włącz przełącznik "Strony chronione hasłem" na stronie indeksowania
- Wprowadź adres URL strony logowania (np.
yoursite.com/login) - Wprowadź swoją nazwę użytkownika/e-mail i hasło
- Kliknij Rozpocznij indeksowanie - system najpierw się zaloguje, a następnie zaindeksuje chronione strony
Jak to działa
Po włączeniu ochrony hasłem robot indeksujący:
- Visits your login page and detects the form fields automatically
- Przesyła Twoje dane logowania (w tym tokeny CSRF)
- Utrzymuje uwierzytelnioną sesję podczas indeksowania
- Starts from where you're redirected after login (e.g., your dashboard)
- Odkrywa i indeksuje wszystkie chronione strony, które może znaleźć
Wskazówka: Robot indeksujący automatycznie wykrywa pola formularza (e-mail, nazwa użytkownika, hasło) i tokeny bezpieczeństwa, więc działa z większością formularzy logowania bez dodatkowej konfiguracji.
Zaawansowane: niestandardowe nazwy pól
Jeśli Twój formularz logowania używa niestandardowych nazw pól, rozwiń sekcję "Zaawansowane" i określ:
- Nazwa pola użytkownika - Nazwa pola formularza dla nazwy użytkownika/e-maila (np.
user_email) - Nazwa pola hasła - Nazwa pola formularza dla hasła (np.
user_pass)
Ograniczenia: Indeksowanie stron chronionych hasłem działa ze standardowymi formularzami logowania HTML. Może nie działać z:
- JavaScript-based logins (React, Vue, Angular single-page apps)
- Logowaniem chronionym przez CAPTCHA lub reCAPTCHA
- Uwierzytelnianiem dwuskładnikowym (2FA)
- Logowaniem OAuth (Google, Facebook itp.)
- Wieloetapowymi procesami logowania
Wskazówka: Zamiast korzystać z osobistego konta, rozważ utworzenie dedykowanego konta specjalnie do indeksowania. Pozwala to dokładnie kontrolować, do czego robot indeksujący ma dostęp.
Najlepsze praktyki
Przed indeksowaniem
- Make sure your website is accessible and pages load correctly
- Check that important pages are linked from your homepage or sitemap
- For password-protected crawls, verify your credentials work
Wybór stron
- Zacznij od najważniejszych stron - stron produktów, FAQ, usług
- Użyj trybu ręcznego, jeśli potrzebujesz tylko określonych stron
- Avoid crawling pages with outdated or inaccurate information
Po indeksowaniu
- Przejrzyj zaindeksowaną treść w swojej bazie wiedzy
- Usuń wszystkie nieistotne strony, które zostały przechwycone
- Przetestuj swoją AI pytaniami dotyczącymi zaindeksowanej treści
- Okresowo indeksuj ponownie, aby utrzymać treść aktualną
Uwaga: Każde nowe indeksowanie zastępuje poprzednie dla danej witryny. Twoja AI zawsze będzie korzystać z ostatnio zaindeksowanej treści.
Zarządzanie zaindeksowanymi stronami
Po zakończeniu indeksowania możesz przeglądać i zarządzać poszczególnymi stronami w sekcji Baza wiedzy na swoim Panelu kontrolnym.
Podgląd treści strony
- Przejdź do swojego Panelu kontrolnego i otwórz sekcję Baza wiedzy
- Kliknij element indeksowania, aby go otworzyć — zobaczysz listę wszystkich zaindeksowanych stron
- Click any page title to preview its extracted content
- Użyj przycisku Powrót do stron, aby wrócić do listy stron
Wskazówka: Podgląd stron to świetny sposób na weryfikację, czy robot indeksujący wyodrębnił właściwą treść. Jeśli strona wygląda nieprawidłowo, możesz ją bezpośrednio edytować lub usunąć i dodać treść ręcznie.
Edycja poszczególnych stron Starter+
Możesz edytować wyodrębnioną treść dowolnej zaindeksowanej strony. Jest to przydatne do naprawiania problemów z formatowaniem, usuwania nieistotnych sekcji lub dodawania brakujących informacji.
- Open the crawl item and click a page title to view its content
- Kliknij przycisk Edytuj na górze podglądu
- Zmodyfikuj tytuł lub treść według potrzeb
- Kliknij Zapisz i osadź ponownie — osadzenia AI strony zostaną wygenerowane ponownie z zaktualizowaną treścią
Uwaga: Edycja strony powoduje ponowne osadzenie tylko tej konkretnej strony, a nie całego indeksowania. Pozostałe zaindeksowane strony nie są zmieniane.
Ponowne przeszukiwanie poszczególnych stron Starter+
Jeśli strona na Twojej witrynie została zaktualizowana, możesz ponownie przeszukać tylko tę stronę bez ponownego przeszukiwania całej witryny.
- Otwórz element indeksowania z Bazy wiedzy
- Click the re-crawl button next to the page you want to update
- Potwierdź — strona zostanie ponownie pobrana, a jej osadzenia zaktualizowane najnowszą treścią
Wskazówka: To świetne rozwiązanie do aktualizacji poszczególnych stron po zmianach treści, bez konieczności ponownego przeszukiwania setek stron.
Usuwanie poszczególnych stron
Możesz usunąć konkretne strony z indeksowania bez usuwania całego indeksowania. Jest to przydatne do usuwania nieistotnych, zduplikowanych lub nieprawidłowo zaindeksowanych stron.
- Otwórz element indeksowania z Bazy wiedzy
- Kliknij przycisk usuń obok strony, którą chcesz usunąć
- Potwierdź usunięcie — strona i jej osadzenia zostaną trwale usunięte
Uwaga: Jeśli usuniesz wszystkie strony z indeksowania, cały wpis indeksowania zostanie automatycznie usunięty z Twojej bazy wiedzy.
Rozwiązywanie problemów
Indeksowanie zwraca mniej stron niż oczekiwano
- Strony mogą nie być linkowane z odkrywalnych stron
- Niektóre strony mogą być blokowane przez robots.txt
- Cloudflare or other security services might block the crawler
- Solution: Use Manual mode to specify exact URLs
Indeksowanie stron chronionych hasłem nie powodzi się
- Zweryfikuj, czy Twoje dane logowania są prawidłowe
- Sprawdź, czy Twoje logowanie używa CAPTCHA lub 2FA
- Try specifying custom field names in Advanced settings
- Your site might use JavaScript-based authentication (not supported)
Alternatywy, jeśli indeksowanie nie działa:
- Tymczasowo upublicznij strony, zaindeksuj je, a następnie ponownie włącz ochronę
- Zapisz strony jako pliki HTML i prześlij je przez Przesyłanie zbiorcze
Treść wydaje się niekompletna
- Część treści może być ładowana przez JavaScript (niewyodrębniona)
- Treść może znajdować się w obrazach (niewyodrębniona jako tekst)
- Rozwiązanie: Dodaj brakującą treść ręcznie przez przesyłanie tekstu lub pliku PDF