Website-Crawl
Inhalte automatisch von Ihren Webseiten extrahieren
Übersicht
Der Website-Crawler erkennt und extrahiert automatisch Inhalte von mehreren Seiten Ihrer Website. Anstatt Seiten einzeln hinzuzufügen, können Sie Ihre gesamte Website (oder bestimmte Bereiche) crawlen und alle Inhalte automatisch zur Wissensdatenbank Ihrer KI hinzufügen lassen.
Der Crawler folgt Links, um Seiten zu entdecken, extrahiert Textinhalte und verarbeitet alles, damit Ihre KI Fragen zu Ihrer Website beantworten kann.
Crawl-Modi
Sie können je nach Bedarf zwischen zwei Crawl-Modi wählen:
Automatischer Modus
Der Crawler beginnt auf Ihrer Startseite und entdeckt automatisch Seiten, indem er Links folgt. Er prüft auch Ihre sitemap.xml, falls vorhanden. Am besten geeignet für das Crawlen Ihrer gesamten Website oder großer Bereiche davon.
Alle TarifeManueller Modus
Sie geben genaue URLs zum Crawlen an (kommagetrennt). Der Crawler besucht nur diese bestimmten Seiten. Am besten geeignet, wenn Sie nur bestimmte Seiten zu Ihrer Wissensdatenbank hinzufügen möchten.
Starter+Crawl-Limits nach Tarif
The maximum number of pages you can crawl depends on your plan:
| Tarif | Max. Seiten | Manueller Modus | Passwortgeschützt |
|---|---|---|---|
| Free | 50 Seiten | ||
| Starter | 250 Seiten | ||
| Standard | 1.000 Seiten | ||
| Pro | 5.000 Seiten |
Passwortgeschützte Seiten Starter+
Müssen Sie Seiten hinter einem Login crawlen? Aktivieren Sie die Option "Passwortgeschützte Seiten", um Inhalte nur für Mitglieder, Dashboards oder passwortgeschützte Bereiche Ihrer Website zu crawlen.
Anleitung
- Aktivieren Sie den Schalter "Passwortgeschützte Seiten" auf der Crawl-Seite
- Geben Sie Ihre Login-Seiten-URL ein (z. B.
yoursite.com/login) - Geben Sie Ihren Benutzernamen/E-Mail und Ihr Passwort ein
- Klicken Sie auf Crawling starten – das System meldet sich zuerst an und crawlt dann die geschützten Seiten
So funktioniert es
Wenn Sie den Passwortschutz aktivieren, wird der Crawler:
- Besucht Ihre Login-Seite und erkennt die Formularfelder automatisch
- Übermittelt Ihre Anmeldedaten (einschließlich aller CSRF-Tokens)
- Hält die authentifizierte Sitzung während des Crawlings aufrecht
- Starts from where you're redirected after login (e.g., your dashboard)
- Discovers and crawls all protected pages it can find
Tipp: Der Crawler erkennt automatisch Formularfelder (E-Mail, Benutzername, Passwort) und Sicherheits-Tokens, sodass er mit den meisten Login-Formularen ohne zusätzliche Konfiguration funktioniert.
Erweitert: Benutzerdefinierte Feldnamen
Wenn Ihr Login-Formular nicht-standardmäßige Feldnamen verwendet, erweitern Sie den Abschnitt "Erweitert" und geben Sie an:
- Benutzername-Feldname – Der Formularfeldname für Benutzername/E-Mail (z. B.
user_email) - Passwort-Feldname – Der Formularfeldname für das Passwort (z. B.
user_pass)
Einschränkungen: Passwortgeschütztes Crawling funktioniert mit Standard-HTML-Login-Formularen. Es funktioniert möglicherweise nicht mit:
- JavaScript-basierten Logins (React, Vue, Angular Single-Page-Apps)
- CAPTCHA- oder reCAPTCHA-geschützten Logins
- Zwei-Faktor-Authentifizierung (2FA)
- OAuth-Logins (Google, Facebook usw.)
- Mehrstufigen Login-Abläufen
Tipp: Anstatt Ihr persönliches Konto zu verwenden, sollten Sie ein dediziertes Konto speziell für das Crawling erstellen. So können Sie genau steuern, worauf der Crawler zugreifen kann.
Bewährte Vorgehensweisen
Vor dem Crawling
- Make sure your website is accessible and pages load correctly
- Check that important pages are linked from your homepage or sitemap
- For password-protected crawls, verify your credentials work
Seiten auswählen
- Start with your most important pages - product pages, FAQs, services
- Use Manual mode if you only need specific pages
- Avoid crawling pages with outdated or inaccurate information
Nach dem Crawling
- Überprüfen Sie die gecrawlten Inhalte in Ihrer Wissensdatenbank
- Entfernen Sie alle irrelevanten Seiten, die erfasst wurden
- Testen Sie Ihre KI mit Fragen zu den gecrawlten Inhalten
- Führen Sie regelmäßig neue Crawls durch, um Inhalte aktuell zu halten
Hinweis: Jeder neue Crawl ersetzt den vorherigen für diese Website. Ihre KI verwendet immer die zuletzt gecrawlten Inhalte.
Gecrawlte Seiten verwalten
Nach Abschluss eines Crawls können Sie einzelne Seiten im Bereich Wissensdatenbank auf Ihrem Dashboard ansehen und verwalten.
Seiteninhalte in der Vorschau anzeigen
- Gehen Sie zu Ihrem Dashboard und öffnen Sie den Bereich Wissensdatenbank
- Klicken Sie auf ein Crawl-Element, um es zu öffnen – Sie sehen eine Liste aller gecrawlten Seiten
- Click any page title to preview its extracted content
- Verwenden Sie die Schaltfläche Zurück zu den Seiten, um zur Seitenliste zurückzukehren
Tipp: Die Seitenvorschau ist eine großartige Möglichkeit zu überprüfen, ob der Crawler den richtigen Inhalt extrahiert hat. Wenn eine Seite falsch aussieht, können Sie sie direkt bearbeiten oder löschen und den Inhalt stattdessen manuell hinzufügen.
Einzelne Seiten bearbeiten Starter+
Sie können den extrahierten Inhalt jeder gecrawlten Seite bearbeiten. Dies ist nützlich, um Formatierungsprobleme zu beheben, irrelevante Abschnitte zu entfernen oder fehlende Informationen hinzuzufügen.
- Open the crawl item and click a page title to view its content
- Click the Edit button at the top of the preview
- Ändern Sie den Titel oder Inhalt nach Bedarf
- Klicken Sie auf Speichern & Neu einbetten – die KI-Einbettungen der Seite werden mit dem aktualisierten Inhalt neu generiert
Hinweis: Das Bearbeiten einer Seite bettet nur diese bestimmte Seite neu ein, nicht den gesamten Crawl. Ihre anderen gecrawlten Seiten bleiben unberührt.
Erneutes Crawlen einzelner Seiten Starter+
Wenn eine Seite auf Ihrer Website aktualisiert wurde, können Sie nur diese Seite erneut crawlen, ohne Ihre gesamte Website erneut zu crawlen.
- Öffnen Sie das Crawl-Element aus Ihrer Wissensdatenbank
- Click the re-crawl button next to the page you want to update
- Bestätigen — die Seite wird erneut abgerufen und ihre Einbettungen mit dem neuesten Inhalt aktualisiert
Tipp: Dies ist ideal, um einzelne Seiten nach Inhaltsänderungen aktuell zu halten, ohne Hunderte von Seiten erneut crawlen zu müssen.
Einzelne Seiten löschen
Sie können bestimmte Seiten aus einem Crawl entfernen, ohne den gesamten Crawl zu löschen. Dies ist nützlich, um irrelevante, doppelte oder fehlerhaft gecrawlte Seiten zu entfernen.
- Öffnen Sie das Crawl-Element aus Ihrer Wissensdatenbank
- Klicken Sie auf die Schaltfläche Löschen neben der Seite, die Sie entfernen möchten
- Bestätigen Sie die Löschung – die Seite und ihre Einbettungen werden dauerhaft entfernt
Hinweis: Wenn Sie alle Seiten aus einem Crawl löschen, wird der gesamte Crawl-Eintrag automatisch aus Ihrer Wissensdatenbank entfernt.
Fehlerbehebung
Crawl liefert weniger Seiten als erwartet
- Seiten sind möglicherweise nicht von auffindbaren Seiten verlinkt
- Einige Seiten könnten durch robots.txt blockiert sein
- Cloudflare or other security services might block the crawler
- Solution: Use Manual mode to specify exact URLs
Passwortgeschützter Crawl schlägt fehl
- Überprüfen Sie, ob Ihre Anmeldedaten korrekt sind
- Prüfen Sie, ob Ihr Login CAPTCHA oder 2FA verwendet
- Try specifying custom field names in Advanced settings
- Your site might use JavaScript-based authentication (not supported)
Alternativen, wenn das Crawling nicht funktioniert:
- Machen Sie die Seiten vorübergehend öffentlich, crawlen Sie sie und aktivieren Sie dann den Schutz wieder
- Speichern Sie die Seiten als HTML-Dateien und laden Sie sie über Massen-Upload hoch
Inhalt erscheint unvollständig
- Some content might be loaded via JavaScript (not extracted)
- Inhalte könnten in Bildern enthalten sein (nicht als Text extrahiert)
- Lösung: Fehlende Inhalte manuell über Text- oder PDF-Upload hinzufügen