网站抓取
自动从您的网站页面提取内容
概述
网站爬虫会自动发现并提取您网站上多个页面的内容。无需逐页添加,您可以抓取整个网站(或特定部分),所有内容会自动添加到 AI 的知识库中。
爬虫通过跟踪链接来发现页面、提取文本内容并进行处理,使您的 AI 能够回答有关您网站的问题。
抓取模式
您可以根据需求选择两种抓取模式:
自动模式
爬虫从您的首页开始,通过跟踪链接自动发现页面。它还会检查您的 sitemap.xml(如果可用)。最适合抓取整个网站或大部分内容。
所有计划手动模式
您可以指定要抓取的确切 URL(以逗号分隔)。爬虫只会访问那些特定页面。最适合只需将特定页面添加到知识库的情况。
Starter+各计划的抓取限制
您可以抓取的最大页面数取决于您的计划:
| 套餐 | 最大页面数 | 手动模式 | 密码保护 |
|---|---|---|---|
| 免费 | 50 页 | ||
| Starter | 250 页 | ||
| Standard | 1,000 页 | ||
| Pro | 5,000 页 |
密码保护页面 Starter+
需要抓取登录后的页面?启用"密码保护页面"选项,即可抓取会员专属内容、仪表板或网站上任何受密码保护的区域。
使用方法
- 在抓取页面上启用"密码保护页面"开关
- 输入您的 登录页面 URL(例如
yoursite.com/login) - 输入您的 用户名/邮箱 和 密码
- 点击 开始抓取 - 系统会先登录,然后抓取受保护的页面
工作原理
启用密码保护后,爬虫会:
- 访问您的登录页面并自动检测表单字段
- 提交您的凭据(包括任何 CSRF 令牌)
- 在抓取过程中保持已认证的会话
- 从登录后的重定向页面开始(例如您的仪表板)
- 发现并抓取所有能找到的受保护页面
提示: 爬虫会自动检测表单字段(邮箱、用户名、密码)和安全令牌,因此无需额外配置即可适用于大多数登录表单。
高级:自定义字段名称
如果您的登录表单使用非标准字段名称,请展开"高级"部分并指定:
- 用户名字段名称 - 用户名/邮箱的表单字段名(例如
user_email) - 密码字段名称 - 密码的表单字段名(例如
user_pass)
限制: 密码保护抓取适用于标准 HTML 登录表单。以下情况可能不适用:
- 基于 JavaScript 的登录(React、Vue、Angular 单页应用)
- 受 CAPTCHA 或 reCAPTCHA 保护的登录
- 双因素认证(2FA)
- OAuth 登录(Google、Facebook 等)
- 多步骤登录流程
提示: 建议不要使用您的个人账户,而是创建一个专门用于抓取的账户。这样您可以精确控制爬虫能访问的内容。
最佳实践
抓取之前
- 确保您的网站可访问且页面正确加载
- 检查重要页面是否从首页或站点地图链接
- 对于密码保护抓取,请验证您的凭据是否有效
选择页面
- 从最重要的页面开始 - 产品页面、常见问答、服务页面
- 如果只需要特定页面,请使用手动模式
- 避免抓取包含过时或不准确信息的页面
抓取之后
- 在知识库中查看抓取的内容
- 删除任何被抓取的无关页面
- 用关于抓取内容的问题测试您的 AI
- 定期重新抓取以保持内容最新
注意: 每次新的抓取都会替换该网站之前的抓取内容。您的 AI 将始终使用最近一次抓取的内容。
管理已抓取的页面
抓取完成后,您可以在仪表板的知识库部分预览和管理各个页面。
预览页面内容
- 前往您的 仪表板,打开 知识库 部分
- 点击一个抓取项目将其打开 - 您会看到所有已抓取页面的列表
- 点击任意页面标题以预览其提取的内容
- 使用 返回页面列表 按钮返回页面列表
提示: 预览页面是验证爬虫是否提取了正确内容的好方法。如果页面看起来有误,您可以直接编辑或删除它,然后手动添加内容。
编辑单个页面 Starter+
您可以编辑任何已抓取页面的提取内容。这对于修复格式问题、删除无关部分或添加缺失信息非常有用。
- 打开抓取项目并点击页面标题以查看其内容
- 点击预览顶部的 编辑 按钮
- 根据需要修改标题或内容
- 点击 保存并重新嵌入 - 页面的 AI 嵌入将使用更新后的内容重新生成
注意: 编辑页面只会重新嵌入该特定页面,而不是整个抓取内容。其他已抓取的页面不受影响。
重新抓取单独页面 Starter+
如果您网站上的某个页面已更新,您可以仅重新抓取该页面,而无需重新抓取整个网站。
- 从知识库中打开抓取项目
- Click the re-crawl button next to the page you want to update
- 确认 — 页面将被重新获取,其嵌入将使用最新内容更新
提示: 这非常适合在内容更改后保持单个页面的最新状态,而无需重新抓取数百个页面。
删除单个页面
您可以从抓取中删除特定页面而无需删除整个抓取。这对于删除无关、重复或抓取错误的页面非常有用。
- 从知识库中打开抓取项目
- 点击要删除的页面旁边的 删除按钮
- 确认删除 - 该页面及其嵌入将被永久删除
注意: 如果您删除了抓取中的所有页面,整个抓取条目将自动从知识库中移除。
故障排除
抓取返回的页面数少于预期
- 页面可能未从可发现的页面链接
- 某些页面可能被 robots.txt 阻止
- Cloudflare 或其他安全服务可能会阻止爬虫
- 解决方案:使用手动模式指定确切的 URL
密码保护抓取失败
- 验证您的凭据是否正确
- 检查您的登录是否使用了 CAPTCHA 或 2FA
- 尝试在高级设置中指定自定义字段名称
- 您的网站可能使用基于 JavaScript 的认证(不支持)
如果抓取不起作用的替代方案:
- 临时公开页面,抓取它们,然后重新启用保护
- 将页面保存为 HTML 文件,然后通过批量上传上传
内容显示不完整
- 某些内容可能通过 JavaScript 加载(未被提取)
- 内容可能在图片中(未被提取为文本)
- 解决方案:通过文本或 PDF 上传手动添加缺失的内容