ウェブサイトクロール

ウェブサイトのページからコンテンツを自動的に抽出します

概要

ウェブサイトクローラーは、ウェブサイトの複数のページからコンテンツを自動的に検出・抽出します。ページを1つずつ追加する代わりに、サイト全体（または特定のセクション）をクロールし、すべてのコンテンツをAIのナレッジベースに自動的に追加できます。

クローラーはリンクをたどってページを検出し、テキストコンテンツを抽出し、すべてを処理してAIがウェブサイトに関する質問に回答できるようにします。

クロールモード

ニーズに応じて2つのクロールモードから選択できます：

自動モード

クローラーはホームページから開始し、リンクをたどってページを自動的に検出します。利用可能な場合はsitemap.xmlも確認します。ウェブサイト全体または大部分のクロールに最適です。

全プラン

手動モード

クロールする正確なURLを指定します（カンマ区切り）。クローラーは指定されたページのみにアクセスします。特定のページのみをナレッジベースに追加したい場合に最適です。

スターター+

プランごとのクロール上限

クロールできるページの最大数はプランによって異なります：

プラン	最大ページ数	手動モード	パスワード保護
無料	50ページ
スターター	250ページ
スタンダード	1,000ページ
プロ	5,000ページ

パスワード保護ページ Starter+

ログインが必要なページをクロールする必要がありますか？「パスワード保護ページ」オプションを有効にして、会員限定コンテンツ、ダッシュボード、またはウェブサイトのパスワード保護されたエリアをクロールできます。

使用方法

クロールページで「パスワード保護ページ」トグルを有効にしてください
ログインページURLを入力します（例：yoursite.com/login）
ユーザー名/メールとパスワードを入力します
クロールを開始をクリック - システムが最初にログインし、保護されたページをクロールします

仕組み

パスワード保護を有効にすると、クローラーは：

ログインページにアクセスし、フォームフィールドを自動的に検出します
資格情報を送信します（CSRFトークンを含む）
クロール中に認証済みセッションを維持します
Starts from where you're redirected after login (e.g., your dashboard)
見つけたすべての保護されたページを検出・クロールします

ヒント: クローラーはフォームフィールド（メール、ユーザー名、パスワード）とセキュリティトークンを自動的に検出するため、追加の設定なしでほとんどのログインフォームで動作します。

上級者向け：カスタムフィールド名

ログインフォームが標準以外のフィールド名を使用している場合は、「詳細」セクションを展開して以下を指定してください：

ユーザー名フィールド名 - ユーザー名/メールのフォームフィールド名（例：user_email）
パスワードフィールド名 - パスワードのフォームフィールド名（例：user_pass）

制限: パスワード保護クロールは標準的なHTMLログインフォームで動作します。以下の場合は動作しないことがあります：

JavaScriptベースのログイン（React、Vue、Angularシングルページアプリ）
CAPTCHAまたはreCAPTCHAで保護されたログイン
二要素認証（2FA）
OAuthログイン（Google、Facebookなど）
マルチステップのログインフロー

ヒント: 個人アカウントを使用する代わりに、クロール専用のアカウントを作成することを検討してください。これにより、クローラーがアクセスできる範囲を正確に制御できます。

ベストプラクティス

クロール前

Make sure your website is accessible and pages load correctly
Check that important pages are linked from your homepage or sitemap
For password-protected crawls, verify your credentials work

ページの選択

最も重要なページから始めてください - 商品ページ、FAQ、サービス
特定のページのみが必要な場合は手動モードを使用してください
古いまたは不正確な情報を含むページのクロールは避けてください

クロール後

ナレッジベースでクロールされたコンテンツを確認してください
取得された不要なページを削除してください
クロールしたコンテンツについてAIに質問してテストしてください
定期的に再クロールしてコンテンツを最新の状態に保ちましょう

注意: 新しいクロールはそのウェブサイトの以前のクロールを置き換えます。AIは常に最新のクロールコンテンツを使用します。

クロール済みページの管理

クロールが完了したら、ダッシュボードのナレッジベースセクションから個々のページをプレビューおよび管理できます。

ページコンテンツのプレビュー

ダッシュボードを開き、ナレッジベースセクションを開いてください
クロール項目をクリックして開くと、すべてのクロール済みページの一覧が表示されます
ページタイトルをクリックして抽出されたコンテンツをプレビューできます
ページ一覧に戻るボタンを使用してページ一覧に戻ります

ヒント: ページのプレビューは、クローラーが正しいコンテンツを抽出したかを確認する優れた方法です。ページの内容が正しくない場合は、直接編集するか、削除して手動でコンテンツを追加できます。

個別ページの編集 Starter+

クロール済みページの抽出コンテンツを編集できます。書式の問題の修正、不要なセクションの削除、不足している情報の追加に便利です。

クロール項目を開き、ページタイトルをクリックしてコンテンツを表示します
プレビューの上部にある編集ボタンをクリックします
必要に応じてタイトルやコンテンツを変更します
保存して再エンベッドをクリックします。ページのAIエンベディングが更新されたコンテンツで再生成されます

注意: ページの編集はそのページのみを再エンベッドし、クロール全体には影響しません。他のクロール済みページは変更されません。

個別ページの再クロール Starter+

ウェブサイトのページが更新された場合、ウェブサイト全体を再クロールすることなく、そのページだけを再クロールできます。

ナレッジベースからクロール項目を開きます
Click the re-crawl button next to the page you want to update
確認 — ページが再取得され、埋め込みが最新のコンテンツで更新されます

ヒント: これは、何百ものページを再クロールすることなく、コンテンツの変更後に個々のページを最新の状態に保つのに最適です。

個別ページの削除

クロール全体を削除せずに、特定のページを削除できます。不要なページ、重複ページ、または誤ってクロールされたページの削除に便利です。

ナレッジベースからクロール項目を開きます
削除したいページの横にある削除ボタンをクリックしてください
削除を確認します。ページとそのエンベディングが完全に削除されます

注意: クロールからすべてのページを削除すると、クロールエントリ全体がナレッジベースから自動的に削除されます。

トラブルシューティング

クロールが予想より少ないページを返す場合

ページが検出可能なページからリンクされていない可能性があります
一部のページがrobots.txtによってブロックされている可能性があります
Cloudflare or other security services might block the crawler
Solution: Use Manual mode to specify exact URLs

パスワード保護されたクロールが失敗する場合

認証情報が正しいことを確認してください
ログインにCAPTCHAまたは2FAが使用されていないか確認してください
詳細設定でカスタムフィールド名を指定してみてください
サイトがJavaScriptベースの認証を使用している可能性があります（非対応）

クロールが機能しない場合の代替方法：

一時的にページを公開し、クロールしてから保護を再度有効にしてください
ページをHTMLファイルとして保存し、一括アップロードでアップロードしてください

コンテンツが不完全に見える場合

Some content might be loaded via JavaScript (not extracted)
Content might be in images (not extracted as text)
解決方法：テキストまたはPDFアップロードで不足しているコンテンツを手動で追加してください

ドキュメント