การรวบรวมข้อมูลเว็บไซต์
ดึงเนื้อหาจากหน้าเว็บไซต์ของคุณโดยอัตโนมัติ
ภาพรวม
ตัวรวบรวมข้อมูลเว็บไซต์จะค้นหาและดึงเนื้อหาจากหลายหน้าบนเว็บไซต์ของคุณโดยอัตโนมัติ แทนที่จะเพิ่มหน้าทีละหน้า คุณสามารถรวบรวมข้อมูลเว็บไซต์ทั้งหมด (หรือส่วนเฉพาะ) และเพิ่มเนื้อหาทั้งหมดลงในฐานความรู้ของ AI โดยอัตโนมัติ
ตัวรวบรวมข้อมูลจะติดตามลิงก์เพื่อค้นหาหน้าเว็บ ดึงเนื้อหาข้อความ และประมวลผลทุกอย่างเพื่อให้ AI ของคุณสามารถตอบคำถามเกี่ยวกับเว็บไซต์ของคุณได้
โหมดการรวบรวมข้อมูล
คุณสามารถเลือกระหว่างสองโหมดการรวบรวมข้อมูลตามความต้องการของคุณ:
โหมดอัตโนมัติ
ตัวรวบรวมข้อมูลเริ่มจากหน้าแรกของคุณและค้นหาหน้าเว็บโดยอัตโนมัติโดยการติดตามลิงก์ นอกจากนี้ยังตรวจสอบ sitemap.xml ของคุณหากมี เหมาะที่สุดสำหรับการรวบรวมข้อมูลเว็บไซต์ทั้งหมดหรือส่วนใหญ่
ทุกแผนโหมดแมนนวล
คุณระบุ URL ที่ต้องการรวบรวมข้อมูล (คั่นด้วยเครื่องหมายจุลภาค) ตัวรวบรวมข้อมูลจะเยี่ยมชมเฉพาะหน้าเหล่านั้น เหมาะที่สุดเมื่อคุณต้องการเพิ่มเฉพาะบางหน้าลงในฐานความรู้
Starter+ขีดจำกัดการรวบรวมข้อมูลตามแผน
จำนวนหน้าสูงสุดที่คุณสามารถรวบรวมข้อมูลได้ขึ้นอยู่กับแผนของคุณ:
| แผน | จำนวนหน้าสูงสุด | โหมดแมนนวล | มีรหัสผ่านป้องกัน |
|---|---|---|---|
| ฟรี | 50 หน้า | ||
| Starter | 250 หน้า | ||
| Standard | 1,000 หน้า | ||
| Pro | 5,000 หน้า |
หน้าที่มีรหัสผ่านป้องกัน Starter+
ต้องการรวบรวมข้อมูลหน้าที่อยู่หลังการเข้าสู่ระบบ? เปิดใช้งานตัวเลือก "หน้าที่มีรหัสผ่านป้องกัน" เพื่อรวบรวมข้อมูลเนื้อหาสำหรับสมาชิก แดชบอร์ด หรือพื้นที่ที่มีรหัสผ่านป้องกันบนเว็บไซต์ของคุณ
วิธีใช้งาน
- เปิดใช้งานปุ่มสลับ "หน้าที่มีรหัสผ่านป้องกัน" บนหน้ารวบรวมข้อมูล
- ป้อน URL หน้าเข้าสู่ระบบ ของคุณ (เช่น
yoursite.com/login) - ป้อน ชื่อผู้ใช้/อีเมล และ รหัสผ่าน ของคุณ
- คลิก เริ่มการรวบรวมข้อมูล - ระบบจะเข้าสู่ระบบก่อน จากนั้นรวบรวมข้อมูลหน้าที่ถูกป้องกัน
วิธีการทำงาน
เมื่อคุณเปิดใช้งานการป้องกันรหัสผ่าน ตัวรวบรวมข้อมูลจะ:
- เยี่ยมชมหน้าเข้าสู่ระบบของคุณและตรวจจับช่องฟอร์มโดยอัตโนมัติ
- ส่งข้อมูลรับรองของคุณ (รวมถึงโทเค็น CSRF)
- รักษาเซสชันที่ผ่านการยืนยันตัวตนขณะรวบรวมข้อมูล
- เริ่มจากที่คุณถูกเปลี่ยนเส้นทางหลังเข้าสู่ระบบ (เช่น แดชบอร์ดของคุณ)
- ค้นหาและรวบรวมข้อมูลหน้าที่ถูกป้องกันทั้งหมดที่พบ
เคล็ดลับ: ตัวรวบรวมข้อมูลตรวจจับช่องฟอร์ม (อีเมล ชื่อผู้ใช้ รหัสผ่าน) และโทเค็นความปลอดภัยโดยอัตโนมัติ จึงทำงานได้กับฟอร์มเข้าสู่ระบบส่วนใหญ่โดยไม่ต้องกำหนดค่าเพิ่มเติม
ขั้นสูง: ชื่อฟิลด์ที่กำหนดเอง
หากฟอร์มเข้าสู่ระบบของคุณใช้ชื่อฟิลด์ที่ไม่เป็นมาตรฐาน ให้ขยายส่วน "ขั้นสูง" และระบุ:
- ชื่อฟิลด์ชื่อผู้ใช้ - ชื่อฟิลด์ฟอร์มสำหรับชื่อผู้ใช้/อีเมล (เช่น
user_email) - ชื่อฟิลด์รหัสผ่าน - ชื่อฟิลด์ฟอร์มสำหรับรหัสผ่าน (เช่น
user_pass)
ข้อจำกัด: การรวบรวมข้อมูลหน้าที่มีรหัสผ่านป้องกันทำงานกับฟอร์มเข้าสู่ระบบ HTML มาตรฐาน อาจไม่ทำงานกับ:
- การเข้าสู่ระบบแบบ JavaScript (แอปหน้าเดียว React, Vue, Angular)
- การเข้าสู่ระบบที่มี CAPTCHA หรือ reCAPTCHA ป้องกัน
- การยืนยันตัวตนสองขั้นตอน (2FA)
- การเข้าสู่ระบบด้วย OAuth (Google, Facebook เป็นต้น)
- กระบวนการเข้าสู่ระบบแบบหลายขั้นตอน
เคล็ดลับ: แทนที่จะใช้บัญชีส่วนตัว ให้พิจารณาสร้างบัญชีเฉพาะสำหรับการรวบรวมข้อมูล วิธีนี้ช่วยให้คุณควบคุมสิ่งที่ตัวรวบรวมข้อมูลสามารถเข้าถึงได้อย่างแม่นยำ
แนวทางปฏิบัติที่ดีที่สุด
ก่อนการรวบรวมข้อมูล
- Make sure your website is accessible and pages load correctly
- ตรวจสอบว่าหน้าสำคัญถูกลิงก์จากหน้าแรกหรือ sitemap ของคุณ
- For password-protected crawls, verify your credentials work
การเลือกหน้า
- เริ่มต้นด้วยหน้าที่สำคัญที่สุดของคุณ - หน้าสินค้า FAQ บริการ
- ใช้โหมดแมนนวลหากคุณต้องการเฉพาะบางหน้า
- หลีกเลี่ยงการรวบรวมข้อมูลหน้าที่มีข้อมูลล้าสมัยหรือไม่ถูกต้อง
หลังการรวบรวมข้อมูล
- ตรวจสอบเนื้อหาที่รวบรวมได้ในฐานความรู้ของคุณ
- ลบหน้าที่ไม่เกี่ยวข้องที่ถูกรวบรวมออก
- ทดสอบ AI ของคุณด้วยคำถามเกี่ยวกับเนื้อหาที่รวบรวมได้
- รวบรวมข้อมูลใหม่เป็นระยะเพื่อให้เนื้อหาเป็นปัจจุบัน
หมายเหตุ: การรวบรวมข้อมูลใหม่แต่ละครั้งจะแทนที่การรวบรวมข้อมูลก่อนหน้าสำหรับเว็บไซต์นั้น AI ของคุณจะใช้เนื้อหาที่รวบรวมล่าสุดเสมอ
การจัดการหน้าที่รวบรวมได้
หลังจากการรวบรวมข้อมูลเสร็จสิ้น คุณสามารถดูตัวอย่างและจัดการหน้าแต่ละหน้าจากส่วนฐานความรู้บน แดชบอร์ด ของคุณ
การดูตัวอย่างเนื้อหาหน้า
- ไปที่ แดชบอร์ด ของคุณและเปิดส่วน ฐานความรู้
- คลิกที่รายการรวบรวมข้อมูลเพื่อเปิด — คุณจะเห็นรายการหน้าที่รวบรวมได้ทั้งหมด
- คลิกชื่อหน้าใดก็ได้เพื่อดูตัวอย่างเนื้อหาที่ดึงมา
- ใช้ปุ่ม กลับไปยังหน้า เพื่อกลับไปยังรายการหน้า
เคล็ดลับ: การดูตัวอย่างหน้าเป็นวิธีที่ดีในการตรวจสอบว่าตัวรวบรวมข้อมูลดึงเนื้อหาถูกต้อง หากหน้าดูไม่ถูกต้อง คุณสามารถแก้ไขโดยตรงหรือลบออกแล้วเพิ่มเนื้อหาด้วยตนเองแทน
การแก้ไขหน้าแต่ละหน้า Starter+
คุณสามารถแก้ไขเนื้อหาที่ดึงมาของหน้าที่รวบรวมได้ วิธีนี้มีประโยชน์สำหรับการแก้ไขปัญหาการจัดรูปแบบ ลบส่วนที่ไม่เกี่ยวข้อง หรือเพิ่มข้อมูลที่ขาดหายไป
- เปิดรายการรวบรวมข้อมูลและคลิกชื่อหน้าเพื่อดูเนื้อหา
- คลิกปุ่ม แก้ไข ที่ด้านบนของตัวอย่าง
- แก้ไขชื่อเรื่องหรือเนื้อหาตามต้องการ
- คลิก บันทึกและฝังใหม่ — การฝัง AI ของหน้าจะถูกสร้างใหม่ด้วยเนื้อหาที่อัปเดต
หมายเหตุ: การแก้ไขหน้าจะฝังใหม่เฉพาะหน้านั้น ไม่ใช่การรวบรวมข้อมูลทั้งหมด หน้าอื่นที่รวบรวมได้จะไม่ได้รับผลกระทบ
การ re-crawl หน้าเว็บแต่ละหน้า Starter+
หากหน้าเว็บบนเว็บไซต์ของคุณได้รับการอัปเดต คุณสามารถ re-crawl เฉพาะหน้านั้นได้โดยไม่ต้อง re-crawl ทั้งเว็บไซต์
- เปิดรายการรวบรวมข้อมูลจากฐานความรู้ของคุณ
- Click the re-crawl button next to the page you want to update
- ยืนยัน — หน้าเว็บจะถูกดึงข้อมูลใหม่และอัปเดตการฝังด้วยเนื้อหาล่าสุด
เคล็ดลับ: วิธีนี้เหมาะสำหรับการรักษาหน้าเว็บแต่ละหน้าให้ทันสมัยหลังจากมีการเปลี่ยนแปลงเนื้อหา โดยไม่ต้อง re-crawl หน้าเว็บหลายร้อยหน้า
การลบหน้าแต่ละหน้า
คุณสามารถลบหน้าเฉพาะจากการรวบรวมข้อมูลโดยไม่ต้องลบการรวบรวมข้อมูลทั้งหมด วิธีนี้มีประโยชน์สำหรับการลบหน้าที่ไม่เกี่ยวข้อง ซ้ำ หรือรวบรวมข้อมูลไม่ถูกต้อง
- เปิดรายการรวบรวมข้อมูลจากฐานความรู้ของคุณ
- คลิกปุ่ม ลบ ถัดจากหน้าที่คุณต้องการลบ
- ยืนยันการลบ — หน้าและการฝังจะถูกลบอย่างถาวร
หมายเหตุ: หากคุณลบหน้าทั้งหมดจากการรวบรวมข้อมูล รายการรวบรวมข้อมูลทั้งหมดจะถูกลบออกจากฐานความรู้โดยอัตโนมัติ
การแก้ไขปัญหา
การรวบรวมข้อมูลได้หน้าน้อยกว่าที่คาดไว้
- หน้าอาจไม่ได้ถูกลิงก์จากหน้าที่ค้นพบได้
- บางหน้าอาจถูกบล็อกโดย robots.txt
- Cloudflare หรือบริการรักษาความปลอดภัยอื่นอาจบล็อกตัวรวบรวมข้อมูล
- วิธีแก้ไข: ใช้โหมดแมนนวลเพื่อระบุ URL ที่แน่นอน
การรวบรวมข้อมูลหน้าที่มีรหัสผ่านป้องกันล้มเหลว
- ตรวจสอบว่าข้อมูลรับรองของคุณถูกต้อง
- ตรวจสอบว่าการเข้าสู่ระบบของคุณใช้ CAPTCHA หรือ 2FA หรือไม่
- ลองระบุชื่อฟิลด์ที่กำหนดเองในการตั้งค่าขั้นสูง
- เว็บไซต์ของคุณอาจใช้การยืนยันตัวตนแบบ JavaScript (ไม่รองรับ)
ทางเลือกหากการรวบรวมข้อมูลไม่ทำงาน:
- ทำให้หน้าเป็นสาธารณะชั่วคราว รวบรวมข้อมูล แล้วเปิดการป้องกันอีกครั้ง
- บันทึกหน้าเป็นไฟล์ HTML และอัปโหลดผ่าน การอัปโหลดจำนวนมาก
เนื้อหาปรากฏไม่สมบูรณ์
- เนื้อหาบางส่วนอาจถูกโหลดผ่าน JavaScript (ไม่ถูกดึงมา)
- เนื้อหาอาจอยู่ในรูปภาพ (ไม่ถูกดึงเป็นข้อความ)
- วิธีแก้ไข: เพิ่มเนื้อหาที่ขาดหายไปด้วยตนเองผ่านการอัปโหลดข้อความหรือ PDF