Website-Crawl

Inhalte automatisch von Ihren Webseiten extrahieren

Übersicht

Der Website-Crawler erkennt und extrahiert automatisch Inhalte von mehreren Seiten Ihrer Website. Anstatt Seiten einzeln hinzuzufügen, können Sie Ihre gesamte Website (oder bestimmte Bereiche) crawlen und alle Inhalte automatisch zur Wissensdatenbank Ihrer KI hinzufügen lassen.

Der Crawler folgt Links, um Seiten zu entdecken, extrahiert Textinhalte und verarbeitet alles, damit Ihre KI Fragen zu Ihrer Website beantworten kann.

Crawl-Modi

Sie können je nach Bedarf zwischen zwei Crawl-Modi wählen:

Automatischer Modus

Der Crawler beginnt auf Ihrer Startseite und entdeckt automatisch Seiten, indem er Links folgt. Er prüft auch Ihre sitemap.xml, falls vorhanden. Am besten geeignet für das Crawlen Ihrer gesamten Website oder großer Bereiche davon.

Alle Tarife

Manueller Modus

Sie geben genaue URLs zum Crawlen an (kommagetrennt). Der Crawler besucht nur diese bestimmten Seiten. Am besten geeignet, wenn Sie nur bestimmte Seiten zu Ihrer Wissensdatenbank hinzufügen möchten.

Starter+

Crawl-Limits nach Tarif

The maximum number of pages you can crawl depends on your plan:

Tarif	Max. Seiten	Manueller Modus	Passwortgeschützt
Free	50 Seiten
Starter	250 Seiten
Standard	1.000 Seiten
Pro	5.000 Seiten

Passwortgeschützte Seiten Starter+

Müssen Sie Seiten hinter einem Login crawlen? Aktivieren Sie die Option "Passwortgeschützte Seiten", um Inhalte nur für Mitglieder, Dashboards oder passwortgeschützte Bereiche Ihrer Website zu crawlen.

Anleitung

Aktivieren Sie den Schalter "Passwortgeschützte Seiten" auf der Crawl-Seite
Geben Sie Ihre Login-Seiten-URL ein (z. B. yoursite.com/login)
Geben Sie Ihren Benutzernamen/E-Mail und Ihr Passwort ein
Klicken Sie auf Crawling starten – das System meldet sich zuerst an und crawlt dann die geschützten Seiten

So funktioniert es

Wenn Sie den Passwortschutz aktivieren, wird der Crawler:

Besucht Ihre Login-Seite und erkennt die Formularfelder automatisch
Übermittelt Ihre Anmeldedaten (einschließlich aller CSRF-Tokens)
Hält die authentifizierte Sitzung während des Crawlings aufrecht
Starts from where you're redirected after login (e.g., your dashboard)
Discovers and crawls all protected pages it can find

Tipp: Der Crawler erkennt automatisch Formularfelder (E-Mail, Benutzername, Passwort) und Sicherheits-Tokens, sodass er mit den meisten Login-Formularen ohne zusätzliche Konfiguration funktioniert.

Erweitert: Benutzerdefinierte Feldnamen

Wenn Ihr Login-Formular nicht-standardmäßige Feldnamen verwendet, erweitern Sie den Abschnitt "Erweitert" und geben Sie an:

Benutzername-Feldname – Der Formularfeldname für Benutzername/E-Mail (z. B. user_email)
Passwort-Feldname – Der Formularfeldname für das Passwort (z. B. user_pass)

Einschränkungen: Passwortgeschütztes Crawling funktioniert mit Standard-HTML-Login-Formularen. Es funktioniert möglicherweise nicht mit:

JavaScript-basierten Logins (React, Vue, Angular Single-Page-Apps)
CAPTCHA- oder reCAPTCHA-geschützten Logins
Zwei-Faktor-Authentifizierung (2FA)
OAuth-Logins (Google, Facebook usw.)
Mehrstufigen Login-Abläufen

Tipp: Anstatt Ihr persönliches Konto zu verwenden, sollten Sie ein dediziertes Konto speziell für das Crawling erstellen. So können Sie genau steuern, worauf der Crawler zugreifen kann.

Bewährte Vorgehensweisen

Vor dem Crawling

Make sure your website is accessible and pages load correctly
Check that important pages are linked from your homepage or sitemap
For password-protected crawls, verify your credentials work

Seiten auswählen

Start with your most important pages - product pages, FAQs, services
Use Manual mode if you only need specific pages
Avoid crawling pages with outdated or inaccurate information

Nach dem Crawling

Überprüfen Sie die gecrawlten Inhalte in Ihrer Wissensdatenbank
Entfernen Sie alle irrelevanten Seiten, die erfasst wurden
Testen Sie Ihre KI mit Fragen zu den gecrawlten Inhalten
Führen Sie regelmäßig neue Crawls durch, um Inhalte aktuell zu halten

Hinweis: Jeder neue Crawl ersetzt den vorherigen für diese Website. Ihre KI verwendet immer die zuletzt gecrawlten Inhalte.

Gecrawlte Seiten verwalten

Nach Abschluss eines Crawls können Sie einzelne Seiten im Bereich Wissensdatenbank auf Ihrem Dashboard ansehen und verwalten.

Seiteninhalte in der Vorschau anzeigen

Gehen Sie zu Ihrem Dashboard und öffnen Sie den Bereich Wissensdatenbank
Klicken Sie auf ein Crawl-Element, um es zu öffnen – Sie sehen eine Liste aller gecrawlten Seiten
Click any page title to preview its extracted content
Verwenden Sie die Schaltfläche Zurück zu den Seiten, um zur Seitenliste zurückzukehren

Tipp: Die Seitenvorschau ist eine großartige Möglichkeit zu überprüfen, ob der Crawler den richtigen Inhalt extrahiert hat. Wenn eine Seite falsch aussieht, können Sie sie direkt bearbeiten oder löschen und den Inhalt stattdessen manuell hinzufügen.

Einzelne Seiten bearbeiten Starter+

Sie können den extrahierten Inhalt jeder gecrawlten Seite bearbeiten. Dies ist nützlich, um Formatierungsprobleme zu beheben, irrelevante Abschnitte zu entfernen oder fehlende Informationen hinzuzufügen.

Open the crawl item and click a page title to view its content
Click the Edit button at the top of the preview
Ändern Sie den Titel oder Inhalt nach Bedarf
Klicken Sie auf Speichern & Neu einbetten – die KI-Einbettungen der Seite werden mit dem aktualisierten Inhalt neu generiert

Hinweis: Das Bearbeiten einer Seite bettet nur diese bestimmte Seite neu ein, nicht den gesamten Crawl. Ihre anderen gecrawlten Seiten bleiben unberührt.

Erneutes Crawlen einzelner Seiten Starter+

Wenn eine Seite auf Ihrer Website aktualisiert wurde, können Sie nur diese Seite erneut crawlen, ohne Ihre gesamte Website erneut zu crawlen.

Öffnen Sie das Crawl-Element aus Ihrer Wissensdatenbank
Click the re-crawl button next to the page you want to update
Bestätigen — die Seite wird erneut abgerufen und ihre Einbettungen mit dem neuesten Inhalt aktualisiert

Tipp: Dies ist ideal, um einzelne Seiten nach Inhaltsänderungen aktuell zu halten, ohne Hunderte von Seiten erneut crawlen zu müssen.

Einzelne Seiten löschen

Sie können bestimmte Seiten aus einem Crawl entfernen, ohne den gesamten Crawl zu löschen. Dies ist nützlich, um irrelevante, doppelte oder fehlerhaft gecrawlte Seiten zu entfernen.

Öffnen Sie das Crawl-Element aus Ihrer Wissensdatenbank
Klicken Sie auf die Schaltfläche Löschen neben der Seite, die Sie entfernen möchten
Bestätigen Sie die Löschung – die Seite und ihre Einbettungen werden dauerhaft entfernt

Hinweis: Wenn Sie alle Seiten aus einem Crawl löschen, wird der gesamte Crawl-Eintrag automatisch aus Ihrer Wissensdatenbank entfernt.

Fehlerbehebung

Crawl liefert weniger Seiten als erwartet

Seiten sind möglicherweise nicht von auffindbaren Seiten verlinkt
Einige Seiten könnten durch robots.txt blockiert sein
Cloudflare or other security services might block the crawler
Solution: Use Manual mode to specify exact URLs

Passwortgeschützter Crawl schlägt fehl

Überprüfen Sie, ob Ihre Anmeldedaten korrekt sind
Prüfen Sie, ob Ihr Login CAPTCHA oder 2FA verwendet
Try specifying custom field names in Advanced settings
Your site might use JavaScript-based authentication (not supported)

Alternativen, wenn das Crawling nicht funktioniert:

Machen Sie die Seiten vorübergehend öffentlich, crawlen Sie sie und aktivieren Sie dann den Schutz wieder
Speichern Sie die Seiten als HTML-Dateien und laden Sie sie über Massen-Upload hoch

Inhalt erscheint unvollständig

Some content might be loaded via JavaScript (not extracted)
Inhalte könnten in Bildern enthalten sein (nicht als Text extrahiert)
Lösung: Fehlende Inhalte manuell über Text- oder PDF-Upload hinzufügen

Dokumentation