Perayapan Situs Web

Ekstrak konten dari halaman situs web Anda secara otomatis

Mulai Crawling

Ringkasan

Crawler situs web secara otomatis menemukan dan mengekstrak konten dari beberapa halaman di situs web Anda. Alih-alih menambahkan halaman satu per satu, Anda dapat melakukan crawl seluruh situs (atau bagian tertentu) dan semua konten ditambahkan ke basis pengetahuan AI Anda secara otomatis.

Crawler mengikuti tautan untuk menemukan halaman, mengekstrak konten teks, dan memproses semuanya sehingga AI Anda dapat menjawab pertanyaan tentang situs web Anda.

Mode Crawl

Anda dapat memilih antara dua mode crawl tergantung kebutuhan Anda:

Mode Otomatis

Crawler dimulai dari halaman utama Anda dan secara otomatis menemukan halaman dengan mengikuti tautan. Crawler juga memeriksa sitemap.xml Anda jika tersedia. Terbaik untuk melakukan crawl seluruh situs web atau bagian besar darinya.

Semua Paket

Mode Manual

Anda menentukan URL yang tepat untuk di-crawl (dipisahkan koma). Crawler hanya mengunjungi halaman-halaman tertentu tersebut. Terbaik saat Anda hanya ingin halaman tertentu ditambahkan ke basis pengetahuan Anda.

Batas Crawl per Paket

Jumlah maksimum halaman yang dapat Anda crawl tergantung pada paket Anda:

Paket Maks Halaman Mode Manual Dilindungi Kata Sandi
Gratis 50 halaman
Starter 250 halaman
Standard 1.000 halaman
Pro 5.000 halaman

Halaman Dilindungi Kata Sandi

Perlu melakukan crawl halaman di balik login? Aktifkan opsi "Halaman Dilindungi Kata Sandi" untuk melakukan crawl konten khusus anggota, dasbor, atau area yang dilindungi kata sandi di situs web Anda.

Cara Penggunaan

  1. Aktifkan toggle "Halaman Dilindungi Kata Sandi" di halaman crawl
  2. Masukkan URL Halaman Login Anda (contoh, yoursite.com/login)
  3. Masukkan Nama Pengguna/Email dan Kata Sandi Anda
  4. Klik Mulai Crawling - sistem akan login terlebih dahulu, lalu melakukan crawl halaman yang dilindungi

Cara Kerjanya

Saat Anda mengaktifkan perlindungan kata sandi, crawler:

  1. Visits your login page and detects the form fields automatically
  2. Mengirimkan kredensial Anda (termasuk token CSRF apa pun)
  3. Mempertahankan sesi yang terautentikasi selama crawling
  4. Dimulai dari tempat Anda dialihkan setelah login (contoh, dasbor Anda)
  5. Discovers and crawls all protected pages it can find

Tips: Crawler secara otomatis mendeteksi kolom formulir (email, nama pengguna, kata sandi) dan token keamanan, sehingga berfungsi dengan sebagian besar formulir login tanpa konfigurasi tambahan.

Lanjutan: Nama Kolom Kustom

Jika formulir login Anda menggunakan nama kolom non-standar, perluas bagian "Lanjutan" dan tentukan:

  • Nama kolom nama pengguna - Nama kolom formulir untuk nama pengguna/email (contoh, user_email)
  • Nama kolom kata sandi - Nama kolom formulir untuk kata sandi (contoh, user_pass)

Keterbatasan: Crawling yang dilindungi kata sandi berfungsi dengan formulir login HTML standar. Mungkin tidak berfungsi dengan:

  • Login berbasis JavaScript (aplikasi satu halaman React, Vue, Angular)
  • Login yang dilindungi CAPTCHA atau reCAPTCHA
  • Autentikasi dua faktor (2FA)
  • Login OAuth (Google, Facebook, dll.)
  • Alur login multi-langkah

Tips: Alih-alih menggunakan akun pribadi Anda, pertimbangkan untuk membuat akun khusus untuk crawling. Ini memungkinkan Anda mengontrol secara tepat apa yang dapat diakses crawler.

Praktik Terbaik

Sebelum Crawling

  • Pastikan situs web Anda dapat diakses dan halaman dimuat dengan benar
  • Check that important pages are linked from your homepage or sitemap
  • For password-protected crawls, verify your credentials work

Memilih Halaman

  • Mulai dengan halaman terpenting Anda - halaman produk, FAQ, layanan
  • Gunakan mode Manual jika Anda hanya membutuhkan halaman tertentu
  • Avoid crawling pages with outdated or inaccurate information

Setelah Crawling

  • Tinjau konten yang di-crawl di basis pengetahuan Anda
  • Hapus halaman yang tidak relevan yang tertangkap
  • Uji AI Anda dengan pertanyaan tentang konten yang di-crawl
  • Lakukan crawl ulang secara berkala untuk menjaga konten tetap terbaru

Catatan: Setiap crawl baru menggantikan crawl sebelumnya untuk situs web tersebut. AI Anda akan selalu menggunakan konten yang paling baru di-crawl.

Mengelola Halaman yang Di-crawl

Setelah crawl selesai, Anda dapat melihat pratinjau dan mengelola halaman individual dari bagian Basis Pengetahuan di Dasbor Anda.

Melihat Pratinjau Konten Halaman

  1. Buka Dasbor Anda dan buka bagian Basis Pengetahuan
  2. Klik item crawl untuk membukanya — Anda akan melihat daftar semua halaman yang di-crawl
  3. Klik judul halaman mana saja untuk melihat pratinjau konten yang diekstrak
  4. Gunakan tombol Kembali ke halaman untuk kembali ke daftar halaman

Tips: Melihat pratinjau halaman adalah cara yang bagus untuk memverifikasi crawler mengekstrak konten yang tepat. Jika halaman terlihat salah, Anda dapat mengeditnya langsung atau menghapusnya dan menambahkan konten secara manual.

Mengedit Halaman Individual

Anda dapat mengedit konten yang diekstrak dari halaman yang di-crawl mana saja. Ini berguna untuk memperbaiki masalah format, menghapus bagian yang tidak relevan, atau menambahkan informasi yang hilang.

  1. Buka item crawl dan klik judul halaman untuk melihat kontennya
  2. Klik tombol Edit di bagian atas pratinjau
  3. Ubah judul atau konten sesuai kebutuhan
  4. Klik Simpan & Embed Ulang — embedding AI halaman akan dibuat ulang dengan konten yang diperbarui

Catatan: Mengedit halaman hanya melakukan embed ulang halaman tersebut, bukan seluruh crawl. Halaman lain yang di-crawl tidak terpengaruh.

Merayapi Ulang Halaman Individual

Jika halaman di website Anda telah diperbarui, Anda dapat merayapi ulang halaman tersebut saja tanpa merayapi ulang seluruh website Anda.

  1. Buka item crawl dari Basis Pengetahuan Anda
  2. Click the re-crawl button next to the page you want to update
  3. Konfirmasi — halaman akan diambil ulang dan embedding-nya diperbarui dengan konten terbaru

Tips: Ini sangat berguna untuk menjaga halaman individual tetap terbaru setelah perubahan konten, tanpa harus merayapi ulang ratusan halaman.

Menghapus Halaman Individual

Anda dapat menghapus halaman tertentu dari crawl tanpa menghapus seluruh crawl. Ini berguna untuk menghapus halaman yang tidak relevan, duplikat, atau salah di-crawl.

  1. Buka item crawl dari Basis Pengetahuan Anda
  2. Klik tombol hapus di samping halaman yang ingin Anda hapus
  3. Konfirmasi penghapusan — halaman dan embedding-nya akan dihapus secara permanen

Catatan: Jika Anda menghapus semua halaman dari crawl, seluruh entri crawl akan dihapus secara otomatis dari basis pengetahuan Anda.

Pemecahan Masalah

Crawl mengembalikan lebih sedikit halaman dari yang diharapkan

  • Halaman mungkin tidak ditautkan dari halaman yang dapat ditemukan
  • Beberapa halaman mungkin diblokir oleh robots.txt
  • Cloudflare atau layanan keamanan lainnya mungkin memblokir crawler
  • Solution: Use Manual mode to specify exact URLs

Crawl yang dilindungi kata sandi gagal

  • Verifikasi bahwa kredensial Anda benar
  • Periksa apakah login Anda menggunakan CAPTCHA atau 2FA
  • Coba tentukan nama kolom kustom di pengaturan Lanjutan
  • Your site might use JavaScript-based authentication (not supported)

Alternatif jika crawling tidak berfungsi:

  • Jadikan halaman publik sementara, lakukan crawl, lalu aktifkan kembali perlindungan
  • Simpan halaman sebagai file HTML dan unggah melalui Unggah Massal

Konten tampak tidak lengkap

  • Beberapa konten mungkin dimuat melalui JavaScript (tidak diekstrak)
  • Konten mungkin dalam gambar (tidak diekstrak sebagai teks)
  • Solusi: Tambahkan konten yang hilang secara manual melalui unggahan Teks atau PDF