Perayapan Situs Web

Ekstrak konten dari halaman situs web Anda secara otomatis

Ringkasan

Crawler situs web secara otomatis menemukan dan mengekstrak konten dari beberapa halaman di situs web Anda. Alih-alih menambahkan halaman satu per satu, Anda dapat melakukan crawl seluruh situs (atau bagian tertentu) dan semua konten ditambahkan ke basis pengetahuan AI Anda secara otomatis.

Crawler mengikuti tautan untuk menemukan halaman, mengekstrak konten teks, dan memproses semuanya sehingga AI Anda dapat menjawab pertanyaan tentang situs web Anda.

Mode Crawl

Anda dapat memilih antara dua mode crawl tergantung kebutuhan Anda:

Mode Otomatis

Crawler dimulai dari halaman utama Anda dan secara otomatis menemukan halaman dengan mengikuti tautan. Crawler juga memeriksa sitemap.xml Anda jika tersedia. Terbaik untuk melakukan crawl seluruh situs web atau bagian besar darinya.

Semua Paket

Mode Manual

Anda menentukan URL yang tepat untuk di-crawl (dipisahkan koma). Crawler hanya mengunjungi halaman-halaman tertentu tersebut. Terbaik saat Anda hanya ingin halaman tertentu ditambahkan ke basis pengetahuan Anda.

Starter+

Batas Crawl per Paket

Jumlah maksimum halaman yang dapat Anda crawl tergantung pada paket Anda:

Paket	Maks Halaman	Mode Manual	Dilindungi Kata Sandi
Gratis	50 halaman
Starter	250 halaman
Standard	1.000 halaman
Pro	5.000 halaman

Halaman Dilindungi Kata Sandi Starter+

Perlu melakukan crawl halaman di balik login? Aktifkan opsi "Halaman Dilindungi Kata Sandi" untuk melakukan crawl konten khusus anggota, dasbor, atau area yang dilindungi kata sandi di situs web Anda.

Cara Penggunaan

Aktifkan toggle "Halaman Dilindungi Kata Sandi" di halaman crawl
Masukkan URL Halaman Login Anda (contoh, yoursite.com/login)
Masukkan Nama Pengguna/Email dan Kata Sandi Anda
Klik Mulai Crawling - sistem akan login terlebih dahulu, lalu melakukan crawl halaman yang dilindungi

Cara Kerjanya

Saat Anda mengaktifkan perlindungan kata sandi, crawler:

Visits your login page and detects the form fields automatically
Mengirimkan kredensial Anda (termasuk token CSRF apa pun)
Mempertahankan sesi yang terautentikasi selama crawling
Dimulai dari tempat Anda dialihkan setelah login (contoh, dasbor Anda)
Discovers and crawls all protected pages it can find

Tips: Crawler secara otomatis mendeteksi kolom formulir (email, nama pengguna, kata sandi) dan token keamanan, sehingga berfungsi dengan sebagian besar formulir login tanpa konfigurasi tambahan.

Lanjutan: Nama Kolom Kustom

Jika formulir login Anda menggunakan nama kolom non-standar, perluas bagian "Lanjutan" dan tentukan:

Nama kolom nama pengguna - Nama kolom formulir untuk nama pengguna/email (contoh, user_email)
Nama kolom kata sandi - Nama kolom formulir untuk kata sandi (contoh, user_pass)

Keterbatasan: Crawling yang dilindungi kata sandi berfungsi dengan formulir login HTML standar. Mungkin tidak berfungsi dengan:

Login berbasis JavaScript (aplikasi satu halaman React, Vue, Angular)
Login yang dilindungi CAPTCHA atau reCAPTCHA
Autentikasi dua faktor (2FA)
Login OAuth (Google, Facebook, dll.)
Alur login multi-langkah

Tips: Alih-alih menggunakan akun pribadi Anda, pertimbangkan untuk membuat akun khusus untuk crawling. Ini memungkinkan Anda mengontrol secara tepat apa yang dapat diakses crawler.

Praktik Terbaik

Sebelum Crawling

Pastikan situs web Anda dapat diakses dan halaman dimuat dengan benar
Check that important pages are linked from your homepage or sitemap
For password-protected crawls, verify your credentials work

Memilih Halaman

Mulai dengan halaman terpenting Anda - halaman produk, FAQ, layanan
Gunakan mode Manual jika Anda hanya membutuhkan halaman tertentu
Avoid crawling pages with outdated or inaccurate information

Setelah Crawling

Tinjau konten yang di-crawl di basis pengetahuan Anda
Hapus halaman yang tidak relevan yang tertangkap
Uji AI Anda dengan pertanyaan tentang konten yang di-crawl
Lakukan crawl ulang secara berkala untuk menjaga konten tetap terbaru

Catatan: Setiap crawl baru menggantikan crawl sebelumnya untuk situs web tersebut. AI Anda akan selalu menggunakan konten yang paling baru di-crawl.

Mengelola Halaman yang Di-crawl

Setelah crawl selesai, Anda dapat melihat pratinjau dan mengelola halaman individual dari bagian Basis Pengetahuan di Dasbor Anda.

Melihat Pratinjau Konten Halaman

Buka Dasbor Anda dan buka bagian Basis Pengetahuan
Klik item crawl untuk membukanya — Anda akan melihat daftar semua halaman yang di-crawl
Klik judul halaman mana saja untuk melihat pratinjau konten yang diekstrak
Gunakan tombol Kembali ke halaman untuk kembali ke daftar halaman

Tips: Melihat pratinjau halaman adalah cara yang bagus untuk memverifikasi crawler mengekstrak konten yang tepat. Jika halaman terlihat salah, Anda dapat mengeditnya langsung atau menghapusnya dan menambahkan konten secara manual.

Mengedit Halaman Individual Starter+

Anda dapat mengedit konten yang diekstrak dari halaman yang di-crawl mana saja. Ini berguna untuk memperbaiki masalah format, menghapus bagian yang tidak relevan, atau menambahkan informasi yang hilang.

Buka item crawl dan klik judul halaman untuk melihat kontennya
Klik tombol Edit di bagian atas pratinjau
Ubah judul atau konten sesuai kebutuhan
Klik Simpan & Embed Ulang — embedding AI halaman akan dibuat ulang dengan konten yang diperbarui

Catatan: Mengedit halaman hanya melakukan embed ulang halaman tersebut, bukan seluruh crawl. Halaman lain yang di-crawl tidak terpengaruh.

Merayapi Ulang Halaman Individual Starter+

Jika halaman di website Anda telah diperbarui, Anda dapat merayapi ulang halaman tersebut saja tanpa merayapi ulang seluruh website Anda.

Buka item crawl dari Basis Pengetahuan Anda
Click the re-crawl button next to the page you want to update
Konfirmasi — halaman akan diambil ulang dan embedding-nya diperbarui dengan konten terbaru

Tips: Ini sangat berguna untuk menjaga halaman individual tetap terbaru setelah perubahan konten, tanpa harus merayapi ulang ratusan halaman.

Menghapus Halaman Individual

Anda dapat menghapus halaman tertentu dari crawl tanpa menghapus seluruh crawl. Ini berguna untuk menghapus halaman yang tidak relevan, duplikat, atau salah di-crawl.

Buka item crawl dari Basis Pengetahuan Anda
Klik tombol hapus di samping halaman yang ingin Anda hapus
Konfirmasi penghapusan — halaman dan embedding-nya akan dihapus secara permanen

Catatan: Jika Anda menghapus semua halaman dari crawl, seluruh entri crawl akan dihapus secara otomatis dari basis pengetahuan Anda.

Pemecahan Masalah

Crawl mengembalikan lebih sedikit halaman dari yang diharapkan

Halaman mungkin tidak ditautkan dari halaman yang dapat ditemukan
Beberapa halaman mungkin diblokir oleh robots.txt
Cloudflare atau layanan keamanan lainnya mungkin memblokir crawler
Solution: Use Manual mode to specify exact URLs

Crawl yang dilindungi kata sandi gagal

Verifikasi bahwa kredensial Anda benar
Periksa apakah login Anda menggunakan CAPTCHA atau 2FA
Coba tentukan nama kolom kustom di pengaturan Lanjutan
Your site might use JavaScript-based authentication (not supported)

Alternatif jika crawling tidak berfungsi:

Jadikan halaman publik sementara, lakukan crawl, lalu aktifkan kembali perlindungan
Simpan halaman sebagai file HTML dan unggah melalui Unggah Massal

Konten tampak tidak lengkap

Beberapa konten mungkin dimuat melalui JavaScript (tidak diekstrak)
Konten mungkin dalam gambar (tidak diekstrak sebagai teks)
Solusi: Tambahkan konten yang hilang secara manual melalui unggahan Teks atau PDF

Dokumentasi