Сканування сайту
Автоматичне вилучення контенту зі сторінок вашого сайту
Огляд
Сканер сайту автоматично знаходить та вилучає контент з багатьох сторінок вашого сайту. Замість додавання сторінок одна за одною, ви можете просканувати весь сайт (або окремі розділи), і весь контент буде автоматично додано до бази знань вашого ШІ.
Сканер переходить за посиланнями для виявлення сторінок, вилучає текстовий контент та обробляє все, щоб ваш ШІ міг відповідати на питання про ваш сайт.
Режими сканування
Ви можете обрати один із двох режимів сканування залежно від ваших потреб:
Автоматичний режим
Сканер починає з вашої головної сторінки та автоматично знаходить сторінки, переходячи за посиланнями. Він також перевіряє ваш sitemap.xml, якщо він доступний. Найкраще підходить для сканування всього сайту або великих його розділів.
Усі планиРучний режим
Ви вказуєте конкретні URL для сканування (через кому). Сканер відвідує лише ці конкретні сторінки. Найкраще підходить, коли ви хочете додати лише певні сторінки до бази знань.
Starter+Ліміти сканування за планом
The maximum number of pages you can crawl depends on your plan:
| Тариф | Макс. сторінок | Ручний режим | Захищено паролем |
|---|---|---|---|
| Безкоштовно | 50 сторінок | ||
| Starter | 250 сторінок | ||
| Standard | 1 000 сторінок | ||
| Pro | 5 000 сторінок |
Сторінки, захищені паролем Starter+
Потрібно просканувати сторінки за логіном? Увімкніть опцію "Сторінки, захищені паролем", щоб сканувати контент лише для учасників, панелі керування або будь-які захищені паролем розділи вашого сайту.
Як використовувати
- Увімкніть перемикач "Сторінки, захищені паролем" на сторінці сканування
- Введіть URL сторінки входу (наприклад,
yoursite.com/login) - Введіть ваш Логін/Email та Пароль
- Натисніть Почати сканування - система спочатку увійде в систему, а потім просканує захищені сторінки
Як це працює
Коли ви вмикаєте захист паролем, сканер:
- Відвідує вашу сторінку входу та автоматично визначає поля форми
- Надсилає ваші облікові дані (включаючи будь-які CSRF-токени)
- Підтримує автентифіковану сесію під час сканування
- Starts from where you're redirected after login (e.g., your dashboard)
- Знаходить та сканує всі захищені сторінки, які може знайти
Порада: Сканер автоматично визначає поля форми (email, логін, пароль) та токени безпеки, тому працює з більшістю форм входу без додаткової конфігурації.
Додатково: Власні назви полів
Якщо ваша форма входу використовує нестандартні назви полів, розгорніть розділ "Додатково" та вкажіть:
- Назва поля логіна - Назва поля форми для логіна/email (наприклад,
user_email) - Назва поля пароля - Назва поля форми для пароля (наприклад,
user_pass)
Обмеження: Сканування захищених паролем сторінок працює зі стандартними HTML-формами входу. Воно може не працювати з:
- Входами на основі JavaScript (односторінкові додатки React, Vue, Angular)
- Входами, захищеними CAPTCHA або reCAPTCHA
- Двофакторною автентифікацією (2FA)
- Входами через OAuth (Google, Facebook тощо)
- Багатокроковими процесами входу
Порада: Замість використання особистого облікового запису розгляньте створення спеціального облікового запису саме для сканування. Це дозволяє точно контролювати, до чого сканер має доступ.
Найкращі практики
Перед скануванням
- Переконайтеся, що ваш сайт доступний та сторінки завантажуються правильно
- Check that important pages are linked from your homepage or sitemap
- For password-protected crawls, verify your credentials work
Вибір сторінок
- Почніть з найважливіших сторінок - сторінки продуктів, FAQ, послуги
- Використовуйте ручний режим, якщо вам потрібні лише конкретні сторінки
- Уникайте сканування сторінок із застарілою або неточною інформацією
Після сканування
- Перегляньте просканований контент у вашій базі знань
- Видаліть будь-які нерелевантні сторінки, які були захоплені
- Протестуйте вашого ШІ запитаннями щодо просканованого контенту
- Періодично повторюйте сканування, щоб контент був актуальним
Примiтка: Кожне нове сканування замінює попереднє для цього сайту. Ваш ШІ завжди використовуватиме найсвіжіший просканований контент.
Управління просканованими сторінками
Після завершення сканування ви можете переглядати та керувати окремими сторінками з розділу "База знань" на вашій Панелі керування.
Попередній перегляд вмісту сторінки
- Перейдіть на вашу Панель керування та відкрийте розділ База знань
- Натисніть на елемент сканування, щоб відкрити його — ви побачите список усіх просканованих сторінок
- Click any page title to preview its extracted content
- Натисніть кнопку Назад до сторінок, щоб повернутися до списку сторінок
Порада: Попередній перегляд сторінок - чудовий спосіб перевірити, що сканер вилучив правильний контент. Якщо сторінка виглядає неправильно, ви можете відредагувати її безпосередньо або видалити та додати контент вручну.
Редагування окремих сторінок Starter+
Ви можете редагувати вилучений контент будь-якої просканованої сторінки. Це корисно для виправлення проблем з форматуванням, видалення нерелевантних розділів або додавання відсутньої інформації.
- Open the crawl item and click a page title to view its content
- Click the Edit button at the top of the preview
- Змініть заголовок або контент за потреби
- Натисніть Зберегти та перевбудувати — ШІ-вбудовування сторінки буде перегенеровано з оновленим контентом
Примiтка: Редагування сторінки перевбудовує лише цю конкретну сторінку, а не все сканування. Інші ваші просканові сторінки не зачіпаються.
Повторне сканування окремих сторінок Starter+
Якщо сторінку на вашому вебсайті було оновлено, ви можете повторно просканувати лише цю сторінку без повторного сканування всього вебсайту.
- Відкрийте елемент сканування з вашої бази знань
- Click the re-crawl button next to the page you want to update
- Підтвердити — сторінку буде повторно завантажено та її вбудовування оновлено найновішим контентом
Порада: Це чудово підходить для підтримки окремих сторінок в актуальному стані після змін контенту, без необхідності повторного сканування сотень сторінок.
Видалення окремих сторінок
Ви можете видалити конкретні сторінки зі сканування без видалення всього сканування. Це корисно для видалення нерелевантних, дубльованих або неправильно просканованих сторінок.
- Відкрийте елемент сканування з вашої бази знань
- Натисніть кнопку видалити поруч зі сторінкою, яку ви хочете видалити
- Підтвердіть видалення — сторінка та її вбудовування будуть видалені назавжди
Примiтка: Якщо ви видалите всі сторінки зі сканування, весь запис сканування буде автоматично видалений з вашої бази знань.
Усунення неполадок
Сканування повертає менше сторінок, ніж очікувалося
- Сторінки можуть бути не зв'язані з доступними для виявлення сторінками
- Деякі сторінки можуть бути заблоковані robots.txt
- Cloudflare або інші служби безпеки можуть блокувати сканер
- Solution: Use Manual mode to specify exact URLs
Сканування захищених паролем сторінок не вдається
- Перевірте правильність ваших облікових даних
- Перевірте, чи ваш вхід використовує CAPTCHA або 2FA
- Спробуйте вказати власні назви полів у додаткових налаштуваннях
- Your site might use JavaScript-based authentication (not supported)
Альтернативи, якщо сканування не працює:
- Тимчасово зробіть сторінки публічними, просканируйте їх, потім повторно увімкніть захист
- Збережіть сторінки як HTML-файли та завантажте їх через Масове завантаження
Контент виглядає неповним
- Деякий контент може завантажуватися через JavaScript (не вилучається)
- Контент може бути в зображеннях (не вилучається як текст)
- Рішення: Додайте відсутній контент вручну через завантаження тексту або PDF