Rangkak Laman Web

Ekstrak kandungan secara automatik dari halaman laman web anda

Mula Merangkak

Gambaran Keseluruhan

Perangkak laman web secara automatik menemui dan mengekstrak kandungan dari pelbagai halaman di laman web anda. Daripada menambah halaman satu persatu, anda boleh merangkak seluruh laman (atau bahagian tertentu) dan semua kandungan ditambah ke pangkalan pengetahuan AI anda secara automatik.

Perangkak mengikuti pautan untuk menemui halaman, mengekstrak kandungan teks, dan memproses semuanya supaya AI anda dapat menjawab soalan tentang laman web anda.

Mod Rangkakan

Anda boleh memilih antara dua mod rangkakan bergantung pada keperluan anda:

Mod Automatik

Perangkak bermula dari halaman utama anda dan secara automatik menemui halaman dengan mengikuti pautan. Ia juga menyemak sitemap.xml anda jika tersedia. Terbaik untuk merangkak seluruh laman web anda atau bahagian besar daripadanya.

Semua Pelan

Mod Manual

Anda menentukan URL tepat untuk dirangkak (dipisahkan koma). Perangkak hanya melawat halaman tertentu tersebut. Terbaik apabila anda hanya mahu halaman tertentu ditambah ke pangkalan pengetahuan anda.

Had Rangkakan mengikut Pelan

The maximum number of pages you can crawl depends on your plan:

Pelan Halaman Maksimum Mod Manual Dilindungi Kata Laluan
Percuma 50 halaman
Starter 250 halaman
Standard 1,000 halaman
Pro 5,000 halaman

Halaman Dilindungi Kata Laluan

Perlu merangkak halaman di sebalik log masuk? Aktifkan pilihan "Halaman Dilindungi Kata Laluan" untuk merangkak kandungan ahli sahaja, papan pemuka, atau mana-mana kawasan laman web anda yang dilindungi kata laluan.

Cara Penggunaan

  1. Aktifkan togol "Halaman Dilindungi Kata Laluan" di halaman rangkakan
  2. Masukkan URL Halaman Log Masuk anda (cth., yoursite.com/login)
  3. Masukkan Nama Pengguna/Emel dan Kata Laluan anda
  4. Klik Mula Merangkak - sistem akan log masuk terlebih dahulu, kemudian merangkak halaman yang dilindungi

Cara Ia Berfungsi

Apabila anda mengaktifkan perlindungan kata laluan, perangkak:

  1. Melawat halaman log masuk anda dan mengesan medan borang secara automatik
  2. Menghantar kelayakan anda (termasuk sebarang token CSRF)
  3. Mengekalkan sesi yang disahkan semasa merangkak
  4. Starts from where you're redirected after login (e.g., your dashboard)
  5. Menemui dan merangkak semua halaman dilindungi yang dapat ditemui

Petua: Perangkak secara automatik mengesan medan borang (emel, nama pengguna, kata laluan) dan token keselamatan, jadi ia berfungsi dengan kebanyakan borang log masuk tanpa konfigurasi tambahan.

Lanjutan: Nama Medan Tersuai

Jika borang log masuk anda menggunakan nama medan bukan standard, kembangkan bahagian "Lanjutan" dan nyatakan:

  • Nama medan nama pengguna - Nama medan borang untuk nama pengguna/emel (cth., user_email)
  • Nama medan kata laluan - Nama medan borang untuk kata laluan (cth., user_pass)

Had: Rangkakan dilindungi kata laluan berfungsi dengan borang log masuk HTML standard. Ia mungkin tidak berfungsi dengan:

  • Log masuk berasaskan JavaScript (aplikasi satu halaman React, Vue, Angular)
  • Log masuk dilindungi CAPTCHA atau reCAPTCHA
  • Pengesahan dua faktor (2FA)
  • Log masuk OAuth (Google, Facebook, dll.)
  • Aliran log masuk pelbagai langkah

Petua: Daripada menggunakan akaun peribadi anda, pertimbangkan untuk membuat akaun khusus untuk rangkakan. Ini membolehkan anda mengawal dengan tepat apa yang boleh diakses oleh perangkak.

Amalan Terbaik

Sebelum Merangkak

  • Pastikan laman web anda boleh diakses dan halaman dimuatkan dengan betul
  • Check that important pages are linked from your homepage or sitemap
  • Untuk rangkakan dilindungi kata laluan, sahkan kelayakan anda berfungsi

Memilih Halaman

  • Start with your most important pages - product pages, FAQs, services
  • Gunakan mod Manual jika anda hanya memerlukan halaman tertentu
  • Elakkan merangkak halaman dengan maklumat lapuk atau tidak tepat

Selepas Merangkak

  • Semak kandungan yang dirangkak dalam pangkalan pengetahuan anda
  • Buang mana-mana halaman tidak berkaitan yang ditangkap
  • Uji AI anda dengan soalan tentang kandungan yang dirangkak
  • Rangkak semula secara berkala untuk memastikan kandungan terkini

Nota: Setiap rangkakan baharu menggantikan yang sebelumnya untuk laman web tersebut. AI anda akan sentiasa menggunakan kandungan yang paling baru dirangkak.

Mengurus Halaman yang Dirangkak

Selepas rangkakan selesai, anda boleh melihat pratonton dan mengurus halaman individu dari bahagian Pangkalan Pengetahuan di Papan Pemuka anda.

Melihat Pratonton Kandungan Halaman

  1. Pergi ke Papan Pemuka anda dan buka bahagian Pangkalan Pengetahuan
  2. Klik pada item rangkakan untuk membukanya — anda akan melihat senarai semua halaman yang dirangkak
  3. Click any page title to preview its extracted content
  4. Gunakan butang Kembali ke halaman untuk kembali ke senarai halaman

Petua: Melihat pratonton halaman adalah cara yang baik untuk mengesahkan perangkak mengekstrak kandungan yang betul. Jika halaman kelihatan salah, anda boleh mengeditnya secara terus atau memadamnya dan menambah kandungan secara manual.

Mengedit Halaman Individu

Anda boleh mengedit kandungan yang diekstrak dari mana-mana halaman yang dirangkak. Ini berguna untuk membetulkan masalah pemformatan, membuang bahagian tidak berkaitan, atau menambah maklumat yang hilang.

  1. Buka item rangkakan dan klik tajuk halaman untuk melihat kandungannya
  2. Klik butang Edit di bahagian atas pratonton
  3. Ubah suai tajuk atau kandungan mengikut keperluan
  4. Klik Simpan & Benam Semula — pembenaman AI halaman akan dijana semula dengan kandungan yang dikemas kini

Nota: Mengedit halaman hanya membenamkan semula halaman tertentu itu, bukan keseluruhan rangkakan. Halaman lain yang dirangkak tidak terjejas.

Merangkak Semula Halaman Individu

Jika halaman di laman web anda telah dikemas kini, anda boleh merangkak semula halaman itu sahaja tanpa merangkak semula keseluruhan laman web anda.

  1. Buka item rangkakan dari Pangkalan Pengetahuan anda
  2. Click the re-crawl button next to the page you want to update
  3. Sahkan — halaman akan diambil semula dan pembenamannya dikemas kini dengan kandungan terkini

Petua: Ini bagus untuk memastikan halaman individu sentiasa terkini selepas perubahan kandungan, tanpa perlu merangkak semula ratusan halaman.

Memadam Halaman Individu

Anda boleh membuang halaman tertentu dari rangkakan tanpa memadam keseluruhan rangkakan. Ini berguna untuk membuang halaman yang tidak berkaitan, pendua, atau dirangkak secara salah.

  1. Buka item rangkakan dari Pangkalan Pengetahuan anda
  2. Klik butang padam di sebelah halaman yang ingin anda buang
  3. Sahkan pemadaman — halaman dan penbenamannya akan dibuang secara kekal

Nota: Jika anda memadamkan semua halaman dari rangkakan, keseluruhan entri rangkakan akan dibuang secara automatik dari pangkalan pengetahuan anda.

Penyelesaian Masalah

Rangkakan mengembalikan halaman lebih sedikit daripada yang dijangka

  • Halaman mungkin tidak dipautkan dari halaman yang boleh ditemui
  • Sesetengah halaman mungkin disekat oleh robots.txt
  • Cloudflare atau perkhidmatan keselamatan lain mungkin menyekat perangkak
  • Solution: Use Manual mode to specify exact URLs

Rangkakan dilindungi kata laluan gagal

  • Sahkan kelayakan anda adalah betul
  • Semak sama ada log masuk anda menggunakan CAPTCHA atau 2FA
  • Cuba nyatakan nama medan tersuai dalam tetapan Lanjutan
  • Your site might use JavaScript-based authentication (not supported)

Alternatif jika rangkakan tidak berfungsi:

  • Jadikan halaman awam buat sementara waktu, rangkak, kemudian aktifkan semula perlindungan
  • Simpan halaman sebagai fail HTML dan muat naik melalui Muat Naik Pukal

Kandungan kelihatan tidak lengkap

  • Sesetengah kandungan mungkin dimuatkan melalui JavaScript (tidak diekstrak)
  • Kandungan mungkin dalam bentuk imej (tidak diekstrak sebagai teks)
  • Penyelesaian: Tambah kandungan yang hilang secara manual melalui muat naik Teks atau PDF