ウェブサイトクロール
ウェブサイトのページからコンテンツを自動的に抽出します
概要
ウェブサイトクローラーは、ウェブサイトの複数のページからコンテンツを自動的に検出・抽出します。ページを1つずつ追加する代わりに、サイト全体(または特定のセクション)をクロールし、すべてのコンテンツをAIのナレッジベースに自動的に追加できます。
クローラーはリンクをたどってページを検出し、テキストコンテンツを抽出し、すべてを処理してAIがウェブサイトに関する質問に回答できるようにします。
クロールモード
ニーズに応じて2つのクロールモードから選択できます:
自動モード
クローラーはホームページから開始し、リンクをたどってページを自動的に検出します。利用可能な場合はsitemap.xmlも確認します。ウェブサイト全体または大部分のクロールに最適です。
全プラン手動モード
クロールする正確なURLを指定します(カンマ区切り)。クローラーは指定されたページのみにアクセスします。特定のページのみをナレッジベースに追加したい場合に最適です。
スターター+プランごとのクロール上限
クロールできるページの最大数はプランによって異なります:
| プラン | 最大ページ数 | 手動モード | パスワード保護 |
|---|---|---|---|
| 無料 | 50ページ | ||
| スターター | 250ページ | ||
| スタンダード | 1,000ページ | ||
| プロ | 5,000ページ |
パスワード保護ページ Starter+
ログインが必要なページをクロールする必要がありますか?「パスワード保護ページ」オプションを有効にして、会員限定コンテンツ、ダッシュボード、またはウェブサイトのパスワード保護されたエリアをクロールできます。
使用方法
- クロールページで「パスワード保護ページ」トグルを有効にしてください
- ログインページURLを入力します(例:
yoursite.com/login) - ユーザー名/メールとパスワードを入力します
- クロールを開始をクリック - システムが最初にログインし、保護されたページをクロールします
仕組み
パスワード保護を有効にすると、クローラーは:
- ログインページにアクセスし、フォームフィールドを自動的に検出します
- 資格情報を送信します(CSRFトークンを含む)
- クロール中に認証済みセッションを維持します
- Starts from where you're redirected after login (e.g., your dashboard)
- 見つけたすべての保護されたページを検出・クロールします
ヒント: クローラーはフォームフィールド(メール、ユーザー名、パスワード)とセキュリティトークンを自動的に検出するため、追加の設定なしでほとんどのログインフォームで動作します。
上級者向け:カスタムフィールド名
ログインフォームが標準以外のフィールド名を使用している場合は、「詳細」セクションを展開して以下を指定してください:
- ユーザー名フィールド名 - ユーザー名/メールのフォームフィールド名(例:
user_email) - パスワードフィールド名 - パスワードのフォームフィールド名(例:
user_pass)
制限: パスワード保護クロールは標準的なHTMLログインフォームで動作します。以下の場合は動作しないことがあります:
- JavaScriptベースのログイン(React、Vue、Angularシングルページアプリ)
- CAPTCHAまたはreCAPTCHAで保護されたログイン
- 二要素認証(2FA)
- OAuthログイン(Google、Facebookなど)
- マルチステップのログインフロー
ヒント: 個人アカウントを使用する代わりに、クロール専用のアカウントを作成することを検討してください。これにより、クローラーがアクセスできる範囲を正確に制御できます。
ベストプラクティス
クロール前
- Make sure your website is accessible and pages load correctly
- Check that important pages are linked from your homepage or sitemap
- For password-protected crawls, verify your credentials work
ページの選択
- 最も重要なページから始めてください - 商品ページ、FAQ、サービス
- 特定のページのみが必要な場合は手動モードを使用してください
- 古いまたは不正確な情報を含むページのクロールは避けてください
クロール後
- ナレッジベースでクロールされたコンテンツを確認してください
- 取得された不要なページを削除してください
- クロールしたコンテンツについてAIに質問してテストしてください
- 定期的に再クロールしてコンテンツを最新の状態に保ちましょう
注意: 新しいクロールはそのウェブサイトの以前のクロールを置き換えます。AIは常に最新のクロールコンテンツを使用します。
クロール済みページの管理
クロールが完了したら、ダッシュボードのナレッジベースセクションから個々のページをプレビューおよび管理できます。
ページコンテンツのプレビュー
- ダッシュボードを開き、ナレッジベースセクションを開いてください
- クロール項目をクリックして開くと、すべてのクロール済みページの一覧が表示されます
- ページタイトルをクリックして抽出されたコンテンツをプレビューできます
- ページ一覧に戻るボタンを使用してページ一覧に戻ります
ヒント: ページのプレビューは、クローラーが正しいコンテンツを抽出したかを確認する優れた方法です。ページの内容が正しくない場合は、直接編集するか、削除して手動でコンテンツを追加できます。
個別ページの編集 Starter+
クロール済みページの抽出コンテンツを編集できます。書式の問題の修正、不要なセクションの削除、不足している情報の追加に便利です。
- クロール項目を開き、ページタイトルをクリックしてコンテンツを表示します
- プレビューの上部にある編集ボタンをクリックします
- 必要に応じてタイトルやコンテンツを変更します
- 保存して再エンベッドをクリックします。ページのAIエンベディングが更新されたコンテンツで再生成されます
注意: ページの編集はそのページのみを再エンベッドし、クロール全体には影響しません。他のクロール済みページは変更されません。
個別ページの再クロール Starter+
ウェブサイトのページが更新された場合、ウェブサイト全体を再クロールすることなく、そのページだけを再クロールできます。
- ナレッジベースからクロール項目を開きます
- Click the re-crawl button next to the page you want to update
- 確認 — ページが再取得され、埋め込みが最新のコンテンツで更新されます
ヒント: これは、何百ものページを再クロールすることなく、コンテンツの変更後に個々のページを最新の状態に保つのに最適です。
個別ページの削除
クロール全体を削除せずに、特定のページを削除できます。不要なページ、重複ページ、または誤ってクロールされたページの削除に便利です。
- ナレッジベースからクロール項目を開きます
- 削除したいページの横にある 削除ボタンをクリックしてください
- 削除を確認します。ページとそのエンベディングが完全に削除されます
注意: クロールからすべてのページを削除すると、クロールエントリ全体がナレッジベースから自動的に削除されます。
トラブルシューティング
クロールが予想より少ないページを返す場合
- ページが検出可能なページからリンクされていない可能性があります
- 一部のページがrobots.txtによってブロックされている可能性があります
- Cloudflare or other security services might block the crawler
- Solution: Use Manual mode to specify exact URLs
パスワード保護されたクロールが失敗する場合
- 認証情報が正しいことを確認してください
- ログインにCAPTCHAまたは2FAが使用されていないか確認してください
- 詳細設定でカスタムフィールド名を指定してみてください
- サイトがJavaScriptベースの認証を使用している可能性があります(非対応)
クロールが機能しない場合の代替方法:
- 一時的にページを公開し、クロールしてから保護を再度有効にしてください
- ページをHTMLファイルとして保存し、一括アップロードでアップロードしてください
コンテンツが不完全に見える場合
- Some content might be loaded via JavaScript (not extracted)
- Content might be in images (not extracted as text)
- 解決方法:テキストまたはPDFアップロードで不足しているコンテンツを手動で追加してください