Сканирование сайта

Автоматически извлекайте контент со страниц вашего сайта

Обзор

Краулер сайта автоматически обнаруживает и извлекает содержимое с нескольких страниц вашего сайта. Вместо того чтобы добавлять страницы по одной, вы можете обойти весь сайт (или отдельные разделы) и автоматически добавить всё содержимое в базу знаний ИИ.

Краулер переходит по ссылкам для обнаружения страниц, извлекает текстовое содержимое и обрабатывает всё, чтобы ваш ИИ мог отвечать на вопросы о вашем сайте.

Режимы сканирования

You can choose between two crawl modes depending on your needs:

Автоматический режим

Краулер начинает с главной страницы и автоматически обнаруживает страницы, переходя по ссылкам. Также проверяет ваш sitemap.xml при наличии. Лучший вариант для обхода всего сайта или его больших разделов.

Все тарифы

Ручной режим

Вы указываете конкретные URL для обхода (через запятую). Краулер посещает только эти страницы. Лучший вариант, когда нужно добавить в базу знаний только определённые страницы.

Starter+

Лимиты сканирования по тарифам

The maximum number of pages you can crawl depends on your plan:

Тариф	Макс. страниц	Ручной режим	Защищено паролем
Бесплатно	50 страниц
Starter	250 страниц
Standard	1 000 страниц
Про	5 000 страниц

Страницы, защищённые паролем Starter+

Нужно обойти страницы за авторизацией? Включите опцию «Страницы с паролем», чтобы сканировать закрытый контент, панели управления и другие защищённые разделы сайта.

Как использовать

Включите переключатель «Страницы с паролем» на странице сканирования
Введите URL страницы входа (например, yoursite.com/login)
Введите ваш Username/Email and Password
Нажмите Начать сканирование — система сначала выполнит вход, затем просканирует защищённые страницы

Как это работает

Когда вы включаете защиту паролем, сканер:

Посещает вашу страницу входа и автоматически определяет поля формы
Отправляет ваши учётные данные (включая CSRF-токены)
Поддерживает авторизованную сессию во время обхода
Starts from where you're redirected after login (e.g., your dashboard)
Находит и сканирует все защищённые страницы, которые может найти

Совет: Краулер автоматически определяет поля формы (email, имя пользователя, пароль) и токены безопасности, поэтому работает с большинством форм входа без дополнительной настройки.

Расширенные: имена пользовательских полей

Если ваша форма входа использует нестандартные названия полей, раскройте раздел «Дополнительно» и укажите их.

Название поля имени пользователя — имя поля формы для имени пользователя/e-mail (например, user_email)
Название поля пароля — имя поля формы для пароля (например, user_pass)

Ограничения: Обход с защитой паролем работает со стандартными HTML-формами входа. Он может не работать с:

JavaScript-based logins (React, Vue, Angular single-page apps)
Вход с защитой CAPTCHA или reCAPTCHA
Двухфакторная аутентификация (2FA)
Вход через OAuth (Google, Facebook и т.д.)
Многоэтапные процессы входа

Совет: Вместо личного аккаунта рекомендуем создать отдельный аккаунт специально для обхода. Это позволит точно контролировать, к чему получает доступ краулер.

Лучшие практики

Перед сканированием

Убедитесь, что ваш сайт доступен и страницы загружаются корректно
Check that important pages are linked from your homepage or sitemap
For password-protected crawls, verify your credentials work

Выбор страниц

Начните с наиболее важных страниц — страниц товаров, FAQ, услуг
Используйте ручной режим, если нужны только определённые страницы
Избегайте сканирования страниц с устаревшей или неточной информацией

После сканирования

Проверьте обработанный контент в вашей базе знаний
Удалите все нерелевантные страницы, которые были захвачены
Протестируйте ИИ с вопросами о сканированном контенте
Re-crawl periodically to keep content up to date

Примечание: Каждое новое сканирование заменяет предыдущее для данного сайта. Ваш ИИ всегда будет использовать самый актуальный контент.

Управление проиндексированными страницами

После завершения сканирования вы можете просматривать и управлять отдельными страницами в разделе «База знаний» на вашей Панели управления.

Предпросмотр содержимого страницы

Перейдите в панель управления и откройте раздел База знаний
Нажмите на a crawl item to open it — you'll see a list of all crawled pages
Нажмите any page title to preview its extracted content
Используйте кнопку Назад к страницам для возврата к списку страниц

Совет: Предпросмотр страниц — отличный способ убедиться, что краулер извлёк правильный контент. Если страница выглядит неправильно, вы можете отредактировать её напрямую или удалить и добавить контент вручную.

Editing Individual Pages Starter+

Вы можете редактировать извлечённое содержимое любой просканированной страницы. Это полезно для исправления проблем с форматированием, удаления нерелевантных разделов или добавления недостающей информации.

Open the crawl item and click a page title to view its content
Нажмите the Edit button at the top of the preview
При необходимости измените заголовок или содержимое
Нажмите Сохранить и повторно внедрить — векторные представления страницы будут заново сгенерированы с обновлённым содержимым

Примечание: Редактирование страницы повторно встраивает только эту конкретную страницу, а не всё сканирование. Остальные просканированные страницы не затрагиваются.

Повторное сканирование отдельных страниц Starter+

Если страница на вашем сайте была обновлена, вы можете повторно просканировать только эту страницу, не сканируя весь сайт заново.

Откройте элемент обхода из вашей базы знаний
Click the re-crawl button next to the page you want to update
Подтвердить — страница будет загружена заново, а её эмбеддинги обновлены актуальным содержимым

Совет: Это отлично подходит для поддержания отдельных страниц в актуальном состоянии после изменений контента, без необходимости повторного сканирования сотен страниц.

Удаление отдельных страниц

Вы можете удалить отдельные страницы из обхода, не удаляя его целиком. Это удобно для исключения нерелевантных, дублирующихся или некорректно обработанных страниц.

Откройте элемент обхода из вашей базы знаний
Нажмите the delete button next to the page you want to remove
Подтвердите удаление — страница и её векторные представления будут удалены без возможности восстановления

Примечание: Если вы удалите все страницы из обхода, вся запись об обходе будет автоматически удалена из базы знаний.

Устранение неполадок

Сканирование возвращает меньше страниц, чем ожидалось

Страницы могут не иметь ссылок с обнаруживаемых страниц
Некоторые страницы могут быть заблокированы файлом robots.txt
Cloudflare или другие сервисы безопасности могут блокировать сканер
Solution: Use Manual mode to specify exact URLs

Обход с защитой паролем завершается неудачей

Убедитесь в правильности ваших учётных данных
Проверьте, использует ли вход CAPTCHA или двухфакторную аутентификацию
Try specifying custom field names in Advanced settings
Your site might use JavaScript-based authentication (not supported)

Альтернативы, если сканирование не работает:

Временно сделайте страницы публичными, выполните краулинг, затем снова включите защиту
Сохраните страницы как HTML-файлы и загрузите их через Массовую загрузку

Контент кажется неполным

Часть контента может загружаться через JavaScript (и не извлекаться)
Контент может быть в изображениях (не извлечён как текст)
Решение: добавьте недостающий контент вручную через загрузку текста или PDF

Документация