Thu thập dữ liệu Website
Tự động trích xuất nội dung từ các trang website của bạn
Tổng quan
Trình thu thập website tự động phát hiện và trích xuất nội dung từ nhiều trang trên website của bạn. Thay vì thêm từng trang một, bạn có thể thu thập toàn bộ trang (hoặc các phần cụ thể) và tất cả nội dung được thêm vào cơ sở tri thức AI tự động.
Trình thu thập theo các liên kết để phát hiện trang, trích xuất nội dung văn bản và xử lý mọi thứ để AI của bạn có thể trả lời câu hỏi về website.
Chế độ Thu thập
Bạn có thể chọn giữa hai chế độ thu thập tùy theo nhu cầu:
Chế độ Tự động
Trình thu thập bắt đầu từ trang chủ và tự động phát hiện trang bằng cách theo liên kết. Nó cũng kiểm tra sitemap.xml nếu có. Tốt nhất để thu thập toàn bộ website hoặc các phần lớn.
Tất cả GóiChế độ Thủ công
Bạn chỉ định chính xác URL để thu thập (phân cách bằng dấu phẩy). Trình thu thập chỉ truy cập các trang cụ thể đó. Tốt nhất khi bạn chỉ muốn thêm một số trang nhất định vào cơ sở tri thức.
Starter+Giới hạn Thu thập theo Gói
Số trang tối đa bạn có thể thu thập phụ thuộc vào gói của bạn:
| Gói | Số Trang Tối đa | Chế độ Thủ công | Được Bảo vệ bằng Mật khẩu |
|---|---|---|---|
| Miễn phí | 50 trang | ||
| Starter | 250 trang | ||
| Standard | 1.000 trang | ||
| Pro | 5.000 trang |
Trang Được Bảo vệ bằng Mật khẩu Starter+
Cần thu thập trang sau đăng nhập? Bật tùy chọn "Trang Được Bảo vệ bằng Mật khẩu" để thu thập nội dung chỉ dành cho thành viên, bảng điều khiển hoặc bất kỳ khu vực được bảo vệ bằng mật khẩu nào trên website.
Cách Sử dụng
- Bật công tắc "Trang Được Bảo vệ bằng Mật khẩu" trên trang thu thập
- Nhập URL Trang Đăng nhập (ví dụ:
yoursite.com/login) - Nhập Tên người dùng/Email và Mật khẩu
- Nhấn Bắt đầu Thu thập - hệ thống sẽ đăng nhập trước, sau đó thu thập các trang được bảo vệ
Cách hoạt động
Khi bạn bật bảo vệ bằng mật khẩu, trình thu thập:
- Visits your login page and detects the form fields automatically
- Submits your credentials (including any CSRF tokens)
- Duy trì phiên đã xác thực trong quá trình thu thập
- Starts from where you're redirected after login (e.g., your dashboard)
- Phát hiện và thu thập tất cả trang được bảo vệ mà nó có thể tìm thấy
Mẹo: Trình thu thập tự động phát hiện các trường biểu mẫu (email, tên người dùng, mật khẩu) và mã bảo mật, nên nó hoạt động với hầu hết biểu mẫu đăng nhập mà không cần cấu hình thêm.
Nâng cao: Tên Trường Tùy chỉnh
Nếu biểu mẫu đăng nhập của bạn sử dụng tên trường không chuẩn, mở rộng phần "Nâng cao" và chỉ định:
- Tên trường tên người dùng - Tên trường biểu mẫu cho tên người dùng/email (ví dụ:
user_email) - Tên trường mật khẩu - Tên trường biểu mẫu cho mật khẩu (ví dụ:
user_pass)
Hạn chế: Thu thập được bảo vệ bằng mật khẩu hoạt động với biểu mẫu đăng nhập HTML tiêu chuẩn. Nó có thể không hoạt động với:
- JavaScript-based logins (React, Vue, Angular single-page apps)
- Đăng nhập được bảo vệ bằng CAPTCHA hoặc reCAPTCHA
- Xác thực hai yếu tố (2FA)
- Đăng nhập OAuth (Google, Facebook, v.v.)
- Quy trình đăng nhập nhiều bước
Mẹo: Thay vì sử dụng tài khoản cá nhân, hãy cân nhắc tạo tài khoản chuyên dụng riêng cho việc thu thập. Điều này cho phép bạn kiểm soát chính xác những gì trình thu thập có thể truy cập.
Thực hành Tốt nhất
Trước khi Thu thập
- Đảm bảo website của bạn có thể truy cập và các trang tải đúng
- Check that important pages are linked from your homepage or sitemap
- For password-protected crawls, verify your credentials work
Chọn Trang
- Start with your most important pages - product pages, FAQs, services
- Sử dụng chế độ Thủ công nếu bạn chỉ cần các trang cụ thể
- Tránh thu thập trang có thông tin lỗi thời hoặc không chính xác
Sau khi Thu thập
- Xem lại nội dung đã thu thập trong cơ sở tri thức
- Xóa bất kỳ trang không liên quan nào đã được thu thập
- Kiểm thử AI của bạn với câu hỏi về nội dung đã thu thập
- Thu thập lại định kỳ để giữ nội dung cập nhật
Lưu ý: Mỗi lần thu thập mới thay thế lần trước cho website đó. AI của bạn sẽ luôn sử dụng nội dung được thu thập gần nhất.
Quản lý Trang Đã Thu thập
Sau khi hoàn tất thu thập, bạn có thể xem trước và quản lý từng trang từ phần Cơ sở Tri thức trên Bảng điều khiển.
Xem trước Nội dung Trang
- Đi đến Bảng điều khiển và mở phần Cơ sở Tri thức
- Nhấn vào mục thu thập để mở — bạn sẽ thấy danh sách tất cả trang đã thu thập
- Click any page title to preview its extracted content
- Sử dụng nút Quay lại trang để trở về danh sách trang
Mẹo: Xem trước trang là cách tuyệt vời để xác minh trình thu thập đã trích xuất nội dung đúng. Nếu trang trông sai, bạn có thể chỉnh sửa trực tiếp hoặc xóa và thêm nội dung thủ công.
Chỉnh sửa Trang Riêng lẻ Starter+
Bạn có thể chỉnh sửa nội dung đã trích xuất của bất kỳ trang đã thu thập nào. Điều này hữu ích để sửa vấn đề định dạng, xóa phần không liên quan hoặc thêm thông tin bị thiếu.
- Open the crawl item and click a page title to view its content
- Click the Edit button at the top of the preview
- Chỉnh sửa tiêu đề hoặc nội dung theo nhu cầu
- Nhấn Lưu & Nhúng lại — các nhúng AI của trang sẽ được tạo lại với nội dung đã cập nhật
Lưu ý: Chỉnh sửa trang chỉ nhúng lại trang cụ thể đó, không phải toàn bộ lần thu thập. Các trang đã thu thập khác không bị ảnh hưởng.
Thu thập lại các trang riêng lẻ Starter+
Nếu một trang trên trang web của bạn đã được cập nhật, bạn có thể thu thập lại chỉ trang đó mà không cần thu thập lại toàn bộ trang web.
- Mở mục thu thập từ Cơ sở Tri thức
- Click the re-crawl button next to the page you want to update
- Xác nhận — trang sẽ được tải lại và embeddings cập nhật với nội dung mới nhất
Mẹo: Điều này rất hữu ích để cập nhật các trang riêng lẻ sau khi thay đổi nội dung, mà không cần thu thập lại hàng trăm trang.
Xóa Trang Riêng lẻ
Bạn có thể xóa các trang cụ thể khỏi lần thu thập mà không xóa toàn bộ. Điều này hữu ích để xóa trang không liên quan, trùng lặp hoặc thu thập sai.
- Mở mục thu thập từ Cơ sở Tri thức
- Nhấn nút xóa bên cạnh trang bạn muốn xóa
- Xác nhận xóa — trang và các nhúng của nó sẽ bị xóa vĩnh viễn
Lưu ý: Nếu bạn xóa tất cả trang từ lần thu thập, toàn bộ mục thu thập sẽ tự động bị xóa khỏi cơ sở tri thức.
Khắc phục Sự cố
Thu thập trả về ít trang hơn dự kiến
- Trang có thể không được liên kết từ các trang có thể phát hiện
- Một số trang có thể bị chặn bởi robots.txt
- Cloudflare hoặc dịch vụ bảo mật khác có thể chặn trình thu thập
- Solution: Use Manual mode to specify exact URLs
Thu thập được bảo vệ bằng mật khẩu thất bại
- Xác minh thông tin đăng nhập của bạn chính xác
- Kiểm tra xem đăng nhập của bạn có sử dụng CAPTCHA hoặc 2FA không
- Thử chỉ định tên trường tùy chỉnh trong cài đặt Nâng cao
- Trang của bạn có thể sử dụng xác thực dựa trên JavaScript (không được hỗ trợ)
Giải pháp thay thế nếu thu thập không hoạt động:
- Tạm thời công khai các trang, thu thập chúng, sau đó bật lại bảo vệ
- Lưu trang dưới dạng tệp HTML và tải lên qua Tải lên Hàng loạt
Nội dung xuất hiện không đầy đủ
- Một số nội dung có thể được tải qua JavaScript (không được trích xuất)
- Nội dung có thể nằm trong hình ảnh (không được trích xuất dưới dạng văn bản)
- Giải pháp: Thêm nội dung bị thiếu thủ công qua tải lên Văn bản hoặc PDF