ダッシュボードに戻る

ドキュメント

Asyntaiの使い方を学ぶ

ウェブサイトクロール

ウェブサイトのページからコンテンツを自動的に抽出します

クロールを開始

概要

ウェブサイトクローラーは、ウェブサイトの複数のページからコンテンツを自動的に検出・抽出します。ページを1つずつ追加する代わりに、サイト全体(または特定のセクション)をクロールし、すべてのコンテンツをAIのナレッジベースに自動的に追加できます。

クローラーはリンクをたどってページを検出し、テキストコンテンツを抽出し、すべてを処理してAIがウェブサイトに関する質問に回答できるようにします。

クロールモード

ニーズに応じて2つのクロールモードから選択できます:

自動モード

クローラーはホームページから開始し、リンクをたどってページを自動的に検出します。利用可能な場合はsitemap.xmlも確認します。ウェブサイト全体または大部分のクロールに最適です。

全プラン

手動モード

クロールする正確なURLを指定します(カンマ区切り)。クローラーは指定されたページのみにアクセスします。特定のページのみをナレッジベースに追加したい場合に最適です。

プランごとのクロール上限

クロールできるページの最大数はプランによって異なります:

プラン 最大ページ数 手動モード パスワード保護
無料 50ページ
スターター 250ページ
スタンダード 1,000ページ
プロ 5,000ページ

パスワード保護ページ

ログインが必要なページをクロールする必要がありますか?「パスワード保護ページ」オプションを有効にして、会員限定コンテンツ、ダッシュボード、またはウェブサイトのパスワード保護されたエリアをクロールできます。

使用方法

  1. クロールページで「パスワード保護ページ」トグルを有効にしてください
  2. ログインページURLを入力します(例:yoursite.com/login
  3. ユーザー名/メールパスワードを入力します
  4. クロールを開始をクリック - システムが最初にログインし、保護されたページをクロールします

仕組み

パスワード保護を有効にすると、クローラーは:

  1. ログインページにアクセスし、フォームフィールドを自動的に検出します
  2. 資格情報を送信します(CSRFトークンを含む)
  3. クロール中に認証済みセッションを維持します
  4. Starts from where you're redirected after login (e.g., your dashboard)
  5. 見つけたすべての保護されたページを検出・クロールします

ヒント: クローラーはフォームフィールド(メール、ユーザー名、パスワード)とセキュリティトークンを自動的に検出するため、追加の設定なしでほとんどのログインフォームで動作します。

上級者向け:カスタムフィールド名

ログインフォームが標準以外のフィールド名を使用している場合は、「詳細」セクションを展開して以下を指定してください:

  • ユーザー名フィールド名 - ユーザー名/メールのフォームフィールド名(例:user_email
  • パスワードフィールド名 - パスワードのフォームフィールド名(例:user_pass

制限: パスワード保護クロールは標準的なHTMLログインフォームで動作します。以下の場合は動作しないことがあります:

  • JavaScriptベースのログイン(React、Vue、Angularシングルページアプリ)
  • CAPTCHAまたはreCAPTCHAで保護されたログイン
  • 二要素認証(2FA)
  • OAuthログイン(Google、Facebookなど)
  • マルチステップのログインフロー

ヒント: 個人アカウントを使用する代わりに、クロール専用のアカウントを作成することを検討してください。これにより、クローラーがアクセスできる範囲を正確に制御できます。

ベストプラクティス

クロール前

  • Make sure your website is accessible and pages load correctly
  • Check that important pages are linked from your homepage or sitemap
  • For password-protected crawls, verify your credentials work

ページの選択

  • 最も重要なページから始めてください - 商品ページ、FAQ、サービス
  • 特定のページのみが必要な場合は手動モードを使用してください
  • 古いまたは不正確な情報を含むページのクロールは避けてください

クロール後

  • ナレッジベースでクロールされたコンテンツを確認してください
  • 取得された不要なページを削除してください
  • クロールしたコンテンツについてAIに質問してテストしてください
  • 定期的に再クロールしてコンテンツを最新の状態に保ちましょう

注意: 新しいクロールはそのウェブサイトの以前のクロールを置き換えます。AIは常に最新のクロールコンテンツを使用します。

クロール済みページの管理

クロールが完了したら、ダッシュボードのナレッジベースセクションから個々のページをプレビューおよび管理できます。

ページコンテンツのプレビュー

  1. ダッシュボードを開き、ナレッジベースセクションを開いてください
  2. クロール項目をクリックして開くと、すべてのクロール済みページの一覧が表示されます
  3. ページタイトルをクリックして抽出されたコンテンツをプレビューできます
  4. ページ一覧に戻るボタンを使用してページ一覧に戻ります

ヒント: ページのプレビューは、クローラーが正しいコンテンツを抽出したかを確認する優れた方法です。ページの内容が正しくない場合は、直接編集するか、削除して手動でコンテンツを追加できます。

個別ページの編集

クロール済みページの抽出コンテンツを編集できます。書式の問題の修正、不要なセクションの削除、不足している情報の追加に便利です。

  1. クロール項目を開き、ページタイトルをクリックしてコンテンツを表示します
  2. プレビューの上部にある編集ボタンをクリックします
  3. 必要に応じてタイトルやコンテンツを変更します
  4. 保存して再エンベッドをクリックします。ページのAIエンベディングが更新されたコンテンツで再生成されます

注意: ページの編集はそのページのみを再エンベッドし、クロール全体には影響しません。他のクロール済みページは変更されません。

個別ページの再クロール

ウェブサイトのページが更新された場合、ウェブサイト全体を再クロールすることなく、そのページだけを再クロールできます。

  1. ナレッジベースからクロール項目を開きます
  2. Click the re-crawl button next to the page you want to update
  3. 確認 — ページが再取得され、埋め込みが最新のコンテンツで更新されます

ヒント: これは、何百ものページを再クロールすることなく、コンテンツの変更後に個々のページを最新の状態に保つのに最適です。

個別ページの削除

クロール全体を削除せずに、特定のページを削除できます。不要なページ、重複ページ、または誤ってクロールされたページの削除に便利です。

  1. ナレッジベースからクロール項目を開きます
  2. 削除したいページの横にある 削除ボタンをクリックしてください
  3. 削除を確認します。ページとそのエンベディングが完全に削除されます

注意: クロールからすべてのページを削除すると、クロールエントリ全体がナレッジベースから自動的に削除されます。

トラブルシューティング

クロールが予想より少ないページを返す場合

  • ページが検出可能なページからリンクされていない可能性があります
  • 一部のページがrobots.txtによってブロックされている可能性があります
  • Cloudflare or other security services might block the crawler
  • Solution: Use Manual mode to specify exact URLs

パスワード保護されたクロールが失敗する場合

  • 認証情報が正しいことを確認してください
  • ログインにCAPTCHAまたは2FAが使用されていないか確認してください
  • 詳細設定でカスタムフィールド名を指定してみてください
  • サイトがJavaScriptベースの認証を使用している可能性があります(非対応)

クロールが機能しない場合の代替方法:

  • 一時的にページを公開し、クロールしてから保護を再度有効にしてください
  • ページをHTMLファイルとして保存し、一括アップロードでアップロードしてください

コンテンツが不完全に見える場合

  • Some content might be loaded via JavaScript (not extracted)
  • Content might be in images (not extracted as text)
  • 解決方法:テキストまたはPDFアップロードで不足しているコンテンツを手動で追加してください