网站抓取

自动从您的网站页面提取内容

开始抓取

概述

网站爬虫会自动发现并提取您网站上多个页面的内容。无需逐页添加,您可以抓取整个网站(或特定部分),所有内容会自动添加到 AI 的知识库中。

爬虫通过跟踪链接来发现页面、提取文本内容并进行处理,使您的 AI 能够回答有关您网站的问题。

抓取模式

您可以根据需求选择两种抓取模式:

自动模式

爬虫从您的首页开始,通过跟踪链接自动发现页面。它还会检查您的 sitemap.xml(如果可用)。最适合抓取整个网站或大部分内容。

所有计划

手动模式

您可以指定要抓取的确切 URL(以逗号分隔)。爬虫只会访问那些特定页面。最适合只需将特定页面添加到知识库的情况。

各计划的抓取限制

您可以抓取的最大页面数取决于您的计划:

套餐 最大页面数 手动模式 密码保护
免费 50 页
Starter 250 页
Standard 1,000 页
Pro 5,000 页

密码保护页面

需要抓取登录后的页面?启用"密码保护页面"选项,即可抓取会员专属内容、仪表板或网站上任何受密码保护的区域。

使用方法

  1. 在抓取页面上启用"密码保护页面"开关
  2. 输入您的 登录页面 URL(例如 yoursite.com/login
  3. 输入您的 用户名/邮箱密码
  4. 点击 开始抓取 - 系统会先登录,然后抓取受保护的页面

工作原理

启用密码保护后,爬虫会:

  1. 访问您的登录页面并自动检测表单字段
  2. 提交您的凭据(包括任何 CSRF 令牌)
  3. 在抓取过程中保持已认证的会话
  4. 从登录后的重定向页面开始(例如您的仪表板)
  5. 发现并抓取所有能找到的受保护页面

提示: 爬虫会自动检测表单字段(邮箱、用户名、密码)和安全令牌,因此无需额外配置即可适用于大多数登录表单。

高级:自定义字段名称

如果您的登录表单使用非标准字段名称,请展开"高级"部分并指定:

  • 用户名字段名称 - 用户名/邮箱的表单字段名(例如 user_email
  • 密码字段名称 - 密码的表单字段名(例如 user_pass

限制: 密码保护抓取适用于标准 HTML 登录表单。以下情况可能不适用:

  • 基于 JavaScript 的登录(React、Vue、Angular 单页应用)
  • 受 CAPTCHA 或 reCAPTCHA 保护的登录
  • 双因素认证(2FA)
  • OAuth 登录(Google、Facebook 等)
  • 多步骤登录流程

提示: 建议不要使用您的个人账户,而是创建一个专门用于抓取的账户。这样您可以精确控制爬虫能访问的内容。

最佳实践

抓取之前

  • 确保您的网站可访问且页面正确加载
  • 检查重要页面是否从首页或站点地图链接
  • 对于密码保护抓取,请验证您的凭据是否有效

选择页面

  • 从最重要的页面开始 - 产品页面、常见问答、服务页面
  • 如果只需要特定页面,请使用手动模式
  • 避免抓取包含过时或不准确信息的页面

抓取之后

  • 在知识库中查看抓取的内容
  • 删除任何被抓取的无关页面
  • 用关于抓取内容的问题测试您的 AI
  • 定期重新抓取以保持内容最新

注意: 每次新的抓取都会替换该网站之前的抓取内容。您的 AI 将始终使用最近一次抓取的内容。

管理已抓取的页面

抓取完成后,您可以在仪表板的知识库部分预览和管理各个页面。

预览页面内容

  1. 前往您的 仪表板,打开 知识库 部分
  2. 点击一个抓取项目将其打开 - 您会看到所有已抓取页面的列表
  3. 点击任意页面标题以预览其提取的内容
  4. 使用 返回页面列表 按钮返回页面列表

提示: 预览页面是验证爬虫是否提取了正确内容的好方法。如果页面看起来有误,您可以直接编辑或删除它,然后手动添加内容。

编辑单个页面

您可以编辑任何已抓取页面的提取内容。这对于修复格式问题、删除无关部分或添加缺失信息非常有用。

  1. 打开抓取项目并点击页面标题以查看其内容
  2. 点击预览顶部的 编辑 按钮
  3. 根据需要修改标题或内容
  4. 点击 保存并重新嵌入 - 页面的 AI 嵌入将使用更新后的内容重新生成

注意: 编辑页面只会重新嵌入该特定页面,而不是整个抓取内容。其他已抓取的页面不受影响。

重新抓取单独页面

如果您网站上的某个页面已更新,您可以仅重新抓取该页面,而无需重新抓取整个网站。

  1. 从知识库中打开抓取项目
  2. Click the re-crawl button next to the page you want to update
  3. 确认 — 页面将被重新获取,其嵌入将使用最新内容更新

提示: 这非常适合在内容更改后保持单个页面的最新状态,而无需重新抓取数百个页面。

删除单个页面

您可以从抓取中删除特定页面而无需删除整个抓取。这对于删除无关、重复或抓取错误的页面非常有用。

  1. 从知识库中打开抓取项目
  2. 点击要删除的页面旁边的 删除按钮
  3. 确认删除 - 该页面及其嵌入将被永久删除

注意: 如果您删除了抓取中的所有页面,整个抓取条目将自动从知识库中移除。

故障排除

抓取返回的页面数少于预期

  • 页面可能未从可发现的页面链接
  • 某些页面可能被 robots.txt 阻止
  • Cloudflare 或其他安全服务可能会阻止爬虫
  • 解决方案:使用手动模式指定确切的 URL

密码保护抓取失败

  • 验证您的凭据是否正确
  • 检查您的登录是否使用了 CAPTCHA 或 2FA
  • 尝试在高级设置中指定自定义字段名称
  • 您的网站可能使用基于 JavaScript 的认证(不支持)

如果抓取不起作用的替代方案:

  • 临时公开页面,抓取它们,然后重新启用保护
  • 将页面保存为 HTML 文件,然后通过批量上传上传

内容显示不完整

  • 某些内容可能通过 JavaScript 加载(未被提取)
  • 内容可能在图片中(未被提取为文本)
  • 解决方案:通过文本或 PDF 上传手动添加缺失的内容