กลับไปที่แดชบอร์ด

เอกสาร

เรียนรู้วิธีใช้ Asyntai

การรวบรวมข้อมูลเว็บไซต์

ดึงเนื้อหาจากหน้าเว็บไซต์ของคุณโดยอัตโนมัติ

เริ่มการรวบรวมข้อมูล

ภาพรวม

ตัวรวบรวมข้อมูลเว็บไซต์จะค้นหาและดึงเนื้อหาจากหลายหน้าบนเว็บไซต์ของคุณโดยอัตโนมัติ แทนที่จะเพิ่มหน้าทีละหน้า คุณสามารถรวบรวมข้อมูลเว็บไซต์ทั้งหมด (หรือส่วนเฉพาะ) และเพิ่มเนื้อหาทั้งหมดลงในฐานความรู้ของ AI โดยอัตโนมัติ

ตัวรวบรวมข้อมูลจะติดตามลิงก์เพื่อค้นหาหน้าเว็บ ดึงเนื้อหาข้อความ และประมวลผลทุกอย่างเพื่อให้ AI ของคุณสามารถตอบคำถามเกี่ยวกับเว็บไซต์ของคุณได้

โหมดการรวบรวมข้อมูล

คุณสามารถเลือกระหว่างสองโหมดการรวบรวมข้อมูลตามความต้องการของคุณ:

โหมดอัตโนมัติ

ตัวรวบรวมข้อมูลเริ่มจากหน้าแรกของคุณและค้นหาหน้าเว็บโดยอัตโนมัติโดยการติดตามลิงก์ นอกจากนี้ยังตรวจสอบ sitemap.xml ของคุณหากมี เหมาะที่สุดสำหรับการรวบรวมข้อมูลเว็บไซต์ทั้งหมดหรือส่วนใหญ่

ทุกแผน

โหมดแมนนวล

คุณระบุ URL ที่ต้องการรวบรวมข้อมูล (คั่นด้วยเครื่องหมายจุลภาค) ตัวรวบรวมข้อมูลจะเยี่ยมชมเฉพาะหน้าเหล่านั้น เหมาะที่สุดเมื่อคุณต้องการเพิ่มเฉพาะบางหน้าลงในฐานความรู้

ขีดจำกัดการรวบรวมข้อมูลตามแผน

จำนวนหน้าสูงสุดที่คุณสามารถรวบรวมข้อมูลได้ขึ้นอยู่กับแผนของคุณ:

แผน จำนวนหน้าสูงสุด โหมดแมนนวล มีรหัสผ่านป้องกัน
ฟรี 50 หน้า
Starter 250 หน้า
Standard 1,000 หน้า
Pro 5,000 หน้า

หน้าที่มีรหัสผ่านป้องกัน

ต้องการรวบรวมข้อมูลหน้าที่อยู่หลังการเข้าสู่ระบบ? เปิดใช้งานตัวเลือก "หน้าที่มีรหัสผ่านป้องกัน" เพื่อรวบรวมข้อมูลเนื้อหาสำหรับสมาชิก แดชบอร์ด หรือพื้นที่ที่มีรหัสผ่านป้องกันบนเว็บไซต์ของคุณ

วิธีใช้งาน

  1. เปิดใช้งานปุ่มสลับ "หน้าที่มีรหัสผ่านป้องกัน" บนหน้ารวบรวมข้อมูล
  2. ป้อน URL หน้าเข้าสู่ระบบ ของคุณ (เช่น yoursite.com/login)
  3. ป้อน ชื่อผู้ใช้/อีเมล และ รหัสผ่าน ของคุณ
  4. คลิก เริ่มการรวบรวมข้อมูล - ระบบจะเข้าสู่ระบบก่อน จากนั้นรวบรวมข้อมูลหน้าที่ถูกป้องกัน

วิธีการทำงาน

เมื่อคุณเปิดใช้งานการป้องกันรหัสผ่าน ตัวรวบรวมข้อมูลจะ:

  1. เยี่ยมชมหน้าเข้าสู่ระบบของคุณและตรวจจับช่องฟอร์มโดยอัตโนมัติ
  2. ส่งข้อมูลรับรองของคุณ (รวมถึงโทเค็น CSRF)
  3. รักษาเซสชันที่ผ่านการยืนยันตัวตนขณะรวบรวมข้อมูล
  4. เริ่มจากที่คุณถูกเปลี่ยนเส้นทางหลังเข้าสู่ระบบ (เช่น แดชบอร์ดของคุณ)
  5. ค้นหาและรวบรวมข้อมูลหน้าที่ถูกป้องกันทั้งหมดที่พบ

เคล็ดลับ: ตัวรวบรวมข้อมูลตรวจจับช่องฟอร์ม (อีเมล ชื่อผู้ใช้ รหัสผ่าน) และโทเค็นความปลอดภัยโดยอัตโนมัติ จึงทำงานได้กับฟอร์มเข้าสู่ระบบส่วนใหญ่โดยไม่ต้องกำหนดค่าเพิ่มเติม

ขั้นสูง: ชื่อฟิลด์ที่กำหนดเอง

หากฟอร์มเข้าสู่ระบบของคุณใช้ชื่อฟิลด์ที่ไม่เป็นมาตรฐาน ให้ขยายส่วน "ขั้นสูง" และระบุ:

  • ชื่อฟิลด์ชื่อผู้ใช้ - ชื่อฟิลด์ฟอร์มสำหรับชื่อผู้ใช้/อีเมล (เช่น user_email)
  • ชื่อฟิลด์รหัสผ่าน - ชื่อฟิลด์ฟอร์มสำหรับรหัสผ่าน (เช่น user_pass)

ข้อจำกัด: การรวบรวมข้อมูลหน้าที่มีรหัสผ่านป้องกันทำงานกับฟอร์มเข้าสู่ระบบ HTML มาตรฐาน อาจไม่ทำงานกับ:

  • การเข้าสู่ระบบแบบ JavaScript (แอปหน้าเดียว React, Vue, Angular)
  • การเข้าสู่ระบบที่มี CAPTCHA หรือ reCAPTCHA ป้องกัน
  • การยืนยันตัวตนสองขั้นตอน (2FA)
  • การเข้าสู่ระบบด้วย OAuth (Google, Facebook เป็นต้น)
  • กระบวนการเข้าสู่ระบบแบบหลายขั้นตอน

เคล็ดลับ: แทนที่จะใช้บัญชีส่วนตัว ให้พิจารณาสร้างบัญชีเฉพาะสำหรับการรวบรวมข้อมูล วิธีนี้ช่วยให้คุณควบคุมสิ่งที่ตัวรวบรวมข้อมูลสามารถเข้าถึงได้อย่างแม่นยำ

แนวทางปฏิบัติที่ดีที่สุด

ก่อนการรวบรวมข้อมูล

  • Make sure your website is accessible and pages load correctly
  • ตรวจสอบว่าหน้าสำคัญถูกลิงก์จากหน้าแรกหรือ sitemap ของคุณ
  • For password-protected crawls, verify your credentials work

การเลือกหน้า

  • เริ่มต้นด้วยหน้าที่สำคัญที่สุดของคุณ - หน้าสินค้า FAQ บริการ
  • ใช้โหมดแมนนวลหากคุณต้องการเฉพาะบางหน้า
  • หลีกเลี่ยงการรวบรวมข้อมูลหน้าที่มีข้อมูลล้าสมัยหรือไม่ถูกต้อง

หลังการรวบรวมข้อมูล

  • ตรวจสอบเนื้อหาที่รวบรวมได้ในฐานความรู้ของคุณ
  • ลบหน้าที่ไม่เกี่ยวข้องที่ถูกรวบรวมออก
  • ทดสอบ AI ของคุณด้วยคำถามเกี่ยวกับเนื้อหาที่รวบรวมได้
  • รวบรวมข้อมูลใหม่เป็นระยะเพื่อให้เนื้อหาเป็นปัจจุบัน

หมายเหตุ: การรวบรวมข้อมูลใหม่แต่ละครั้งจะแทนที่การรวบรวมข้อมูลก่อนหน้าสำหรับเว็บไซต์นั้น AI ของคุณจะใช้เนื้อหาที่รวบรวมล่าสุดเสมอ

การจัดการหน้าที่รวบรวมได้

หลังจากการรวบรวมข้อมูลเสร็จสิ้น คุณสามารถดูตัวอย่างและจัดการหน้าแต่ละหน้าจากส่วนฐานความรู้บน แดชบอร์ด ของคุณ

การดูตัวอย่างเนื้อหาหน้า

  1. ไปที่ แดชบอร์ด ของคุณและเปิดส่วน ฐานความรู้
  2. คลิกที่รายการรวบรวมข้อมูลเพื่อเปิด — คุณจะเห็นรายการหน้าที่รวบรวมได้ทั้งหมด
  3. คลิกชื่อหน้าใดก็ได้เพื่อดูตัวอย่างเนื้อหาที่ดึงมา
  4. ใช้ปุ่ม กลับไปยังหน้า เพื่อกลับไปยังรายการหน้า

เคล็ดลับ: การดูตัวอย่างหน้าเป็นวิธีที่ดีในการตรวจสอบว่าตัวรวบรวมข้อมูลดึงเนื้อหาถูกต้อง หากหน้าดูไม่ถูกต้อง คุณสามารถแก้ไขโดยตรงหรือลบออกแล้วเพิ่มเนื้อหาด้วยตนเองแทน

การแก้ไขหน้าแต่ละหน้า

คุณสามารถแก้ไขเนื้อหาที่ดึงมาของหน้าที่รวบรวมได้ วิธีนี้มีประโยชน์สำหรับการแก้ไขปัญหาการจัดรูปแบบ ลบส่วนที่ไม่เกี่ยวข้อง หรือเพิ่มข้อมูลที่ขาดหายไป

  1. เปิดรายการรวบรวมข้อมูลและคลิกชื่อหน้าเพื่อดูเนื้อหา
  2. คลิกปุ่ม แก้ไข ที่ด้านบนของตัวอย่าง
  3. แก้ไขชื่อเรื่องหรือเนื้อหาตามต้องการ
  4. คลิก บันทึกและฝังใหม่ — การฝัง AI ของหน้าจะถูกสร้างใหม่ด้วยเนื้อหาที่อัปเดต

หมายเหตุ: การแก้ไขหน้าจะฝังใหม่เฉพาะหน้านั้น ไม่ใช่การรวบรวมข้อมูลทั้งหมด หน้าอื่นที่รวบรวมได้จะไม่ได้รับผลกระทบ

การ re-crawl หน้าเว็บแต่ละหน้า

หากหน้าเว็บบนเว็บไซต์ของคุณได้รับการอัปเดต คุณสามารถ re-crawl เฉพาะหน้านั้นได้โดยไม่ต้อง re-crawl ทั้งเว็บไซต์

  1. เปิดรายการรวบรวมข้อมูลจากฐานความรู้ของคุณ
  2. Click the re-crawl button next to the page you want to update
  3. ยืนยัน — หน้าเว็บจะถูกดึงข้อมูลใหม่และอัปเดตการฝังด้วยเนื้อหาล่าสุด

เคล็ดลับ: วิธีนี้เหมาะสำหรับการรักษาหน้าเว็บแต่ละหน้าให้ทันสมัยหลังจากมีการเปลี่ยนแปลงเนื้อหา โดยไม่ต้อง re-crawl หน้าเว็บหลายร้อยหน้า

การลบหน้าแต่ละหน้า

คุณสามารถลบหน้าเฉพาะจากการรวบรวมข้อมูลโดยไม่ต้องลบการรวบรวมข้อมูลทั้งหมด วิธีนี้มีประโยชน์สำหรับการลบหน้าที่ไม่เกี่ยวข้อง ซ้ำ หรือรวบรวมข้อมูลไม่ถูกต้อง

  1. เปิดรายการรวบรวมข้อมูลจากฐานความรู้ของคุณ
  2. คลิกปุ่ม ลบ ถัดจากหน้าที่คุณต้องการลบ
  3. ยืนยันการลบ — หน้าและการฝังจะถูกลบอย่างถาวร

หมายเหตุ: หากคุณลบหน้าทั้งหมดจากการรวบรวมข้อมูล รายการรวบรวมข้อมูลทั้งหมดจะถูกลบออกจากฐานความรู้โดยอัตโนมัติ

การแก้ไขปัญหา

การรวบรวมข้อมูลได้หน้าน้อยกว่าที่คาดไว้

  • หน้าอาจไม่ได้ถูกลิงก์จากหน้าที่ค้นพบได้
  • บางหน้าอาจถูกบล็อกโดย robots.txt
  • Cloudflare หรือบริการรักษาความปลอดภัยอื่นอาจบล็อกตัวรวบรวมข้อมูล
  • วิธีแก้ไข: ใช้โหมดแมนนวลเพื่อระบุ URL ที่แน่นอน

การรวบรวมข้อมูลหน้าที่มีรหัสผ่านป้องกันล้มเหลว

  • ตรวจสอบว่าข้อมูลรับรองของคุณถูกต้อง
  • ตรวจสอบว่าการเข้าสู่ระบบของคุณใช้ CAPTCHA หรือ 2FA หรือไม่
  • ลองระบุชื่อฟิลด์ที่กำหนดเองในการตั้งค่าขั้นสูง
  • เว็บไซต์ของคุณอาจใช้การยืนยันตัวตนแบบ JavaScript (ไม่รองรับ)

ทางเลือกหากการรวบรวมข้อมูลไม่ทำงาน:

  • ทำให้หน้าเป็นสาธารณะชั่วคราว รวบรวมข้อมูล แล้วเปิดการป้องกันอีกครั้ง
  • บันทึกหน้าเป็นไฟล์ HTML และอัปโหลดผ่าน การอัปโหลดจำนวนมาก

เนื้อหาปรากฏไม่สมบูรณ์

  • เนื้อหาบางส่วนอาจถูกโหลดผ่าน JavaScript (ไม่ถูกดึงมา)
  • เนื้อหาอาจอยู่ในรูปภาพ (ไม่ถูกดึงเป็นข้อความ)
  • วิธีแก้ไข: เพิ่มเนื้อหาที่ขาดหายไปด้วยตนเองผ่านการอัปโหลดข้อความหรือ PDF