Сканирование сайта

Автоматически извлекайте контент со страниц вашего сайта

Обзор

Краулер сайта автоматически обнаруживает и извлекает содержимое с нескольких страниц вашего сайта. Вместо того чтобы добавлять страницы по одной, вы можете обойти весь сайт (или отдельные разделы) и автоматически добавить всё содержимое в базу знаний ИИ.

Краулер переходит по ссылкам для обнаружения страниц, извлекает текстовое содержимое и обрабатывает всё, чтобы ваш ИИ мог отвечать на вопросы о вашем сайте.

Автоматическое обогащение контента

Если ваш сайт построен на популярной платформе, такой как WordPress, Shopify, WooCommerce, Drupal, Squarespace или Strapi, сканер автоматически подтягивает дополнительный структурированный контент наряду с обычными страницами — например, весь ваш каталог товаров, посты блога, категории и списки.

Вам не нужно ничего настраивать. Если ваш сайт построен на поддерживаемой платформе, ваш ИИ автоматически получает более богатые и лучше организованные знания.

Режимы сканирования

Вы можете выбрать один из двух режимов сканирования в зависимости от ваших потребностей:

Автоматический режим

Краулер начинает с главной страницы и автоматически обнаруживает страницы, переходя по ссылкам. Также проверяет ваш sitemap.xml при наличии. Лучший вариант для обхода всего сайта или его больших разделов.

Все тарифы

Ручной режим

Вы указываете конкретные URL для обхода (через запятую). Краулер посещает только эти страницы. Лучший вариант, когда нужно добавить в базу знаний только определённые страницы.

Starter+

Совет: Если в ручном режиме вы введёте один URL, мы спросим, хотите ли вы просканировать только эту страницу или перейти по её ссылкам и просканировать весь сайт — чтобы вы случайно не проиндексировали только одну страницу.

Сканирование поддомена или определённого раздела

По умолчанию автоматическое сканирование начинается с главной страницы вашего сайта. Если нужный контент находится на поддомене — например, в справочном центре, на сайте документации или в блоге — вы можете направить сканер туда.

В режиме Автоматически включите переключатель Сканировать определённый поддомен или URL
Введите начальный URL — например https://help.yoursite.com
Нажмите Начать сканирование — сканер переходит по ссылкам в пределах этого поддомена или раздела

Примечание: Начальный URL должен принадлежать выбранному сайту — это либо тот же домен, либо один из его поддоменов.

Лимиты сканирования по тарифам

Максимальное количество страниц, которые вы можете просканировать, зависит от вашего тарифа:

Тариф	Макс. страниц	Ручной режим	Защищено паролем
Free	50 страниц
Starter	250 страниц
Standard	1 000 страниц
Pro	5 000 страниц

Страницы, защищённые паролем Starter+

Нужно обойти страницы за авторизацией? Включите опцию «Страницы с паролем», чтобы сканировать закрытый контент, панели управления и другие защищённые разделы сайта.

Как использовать

Включите переключатель «Страницы с паролем» на странице сканирования
Введите URL страницы входа (например, yoursite.com/login)
Введите ваш Username/Email и Password
Нажмите Начать сканирование — система сначала выполнит вход, затем просканирует защищённые страницы

Как это работает

Когда вы включаете защиту паролем, сканер:

Посещает вашу страницу входа и автоматически определяет поля формы
Отправляет ваши учётные данные (включая CSRF-токены)
Поддерживает авторизованную сессию во время обхода
Начинает со страницы, на которую вас перенаправляет после входа (например, ваша панель управления)
Находит и сканирует все защищённые страницы, которые может найти

Совет: Краулер автоматически определяет поля формы (email, имя пользователя, пароль) и токены безопасности, поэтому работает с большинством форм входа без дополнительной настройки.

Дополнительно: имена пользовательских полей

Если ваша форма входа использует нестандартные названия полей, раскройте раздел «Дополнительно» и укажите их.

Название поля имени пользователя — имя поля формы для имени пользователя/e-mail (например, user_email)
Название поля пароля — имя поля формы для пароля (например, user_pass)

Ограничения: Обход с защитой паролем работает со стандартными HTML-формами входа. Он может не работать с:

Авторизация на базе JavaScript (React, Vue, Angular — одностраничные приложения)
Вход с защитой CAPTCHA или reCAPTCHA
Двухфакторная аутентификация (2FA)
Вход через OAuth (Google, Facebook и т.д.)
Многоэтапные процессы входа

Совет: Вместо личного аккаунта рекомендуем создать отдельный аккаунт специально для обхода. Это позволит точно контролировать, к чему получает доступ краулер.

Лучшие практики

Перед сканированием

Убедитесь, что ваш сайт доступен и страницы загружаются корректно
Убедитесь, что важные страницы доступны по ссылкам с главной страницы или из карты сайта
Для сканирования с защитой паролем проверьте работоспособность ваших учетных данных

Выбор страниц

Начните с наиболее важных страниц — страниц товаров, FAQ, услуг
Используйте ручной режим, если нужны только определённые страницы
Избегайте сканирования страниц с устаревшей или неточной информацией

После сканирования

Проверьте обработанный контент в вашей базе знаний
Удалите все нерелевантные страницы, которые были захвачены
Протестируйте ИИ с вопросами о сканированном контенте
Периодически повторяйте сканирование, чтобы контент оставался актуальным

Примечание: Каждое новое сканирование заменяет предыдущее для данного сайта. Ваш ИИ всегда будет использовать самый актуальный контент.

Управление проиндексированными страницами

После завершения сканирования вы можете просматривать и управлять отдельными страницами в разделе «База знаний» на вашей Панели управления.

Предпросмотр содержимого страницы

Перейдите в панель управления и откройте раздел База знаний
Нажмите на элемент обхода, чтобы открыть его — вы увидите список всех просканированных страниц
Нажмите на заголовок любой страницы для предпросмотра извлечённого контента
Используйте кнопку Назад к страницам для возврата к списку страниц

Совет: Предпросмотр страниц — отличный способ убедиться, что краулер извлёк правильный контент. Если страница выглядит неправильно, вы можете отредактировать её напрямую или удалить и добавить контент вручную.

Редактирование отдельных страниц Starter+

Вы можете редактировать извлечённое содержимое любой просканированной страницы. Это полезно для исправления проблем с форматированием, удаления нерелевантных разделов или добавления недостающей информации.

Откройте элемент обхода и нажмите на заголовок страницы, чтобы просмотреть её содержимое
Нажмите кнопку Редактировать в верхней части предпросмотра
При необходимости измените заголовок или содержимое
Нажмите Сохранить и повторно внедрить — векторные представления страницы будут заново сгенерированы с обновлённым содержимым

Примечание: Редактирование страницы повторно встраивает только эту конкретную страницу, а не всё сканирование. Остальные просканированные страницы не затрагиваются.

Повторное сканирование отдельных страниц Starter+

Если страница на вашем сайте была обновлена, вы можете повторно просканировать только эту страницу, не сканируя весь сайт заново.

Откройте элемент обхода из вашей базы знаний
Нажмите кнопку re-crawl рядом со страницей, которую вы хотите обновить
Подтвердить — страница будет загружена заново, а её эмбеддинги обновлены актуальным содержимым

Совет: Это отлично подходит для поддержания отдельных страниц в актуальном состоянии после изменений контента, без необходимости повторного сканирования сотен страниц.

Удаление отдельных страниц

Вы можете удалить отдельные страницы из обхода, не удаляя его целиком. Это удобно для исключения нерелевантных, дублирующихся или некорректно обработанных страниц.

Откройте элемент обхода из вашей базы знаний
Нажмите кнопку delete рядом со страницей, которую вы хотите удалить
Подтвердите удаление — страница и её векторные представления будут удалены без возможности восстановления

Примечание: Если вы удалите все страницы из обхода, вся запись об обходе будет автоматически удалена из базы знаний.

Устранение неполадок

Сканирование возвращает меньше страниц, чем ожидалось

Страницы могут не иметь ссылок с обнаруживаемых страниц
Некоторые страницы могут быть заблокированы файлом robots.txt
Cloudflare или другие сервисы безопасности могут блокировать сканер
Ваш контент может находиться на поддомене — используйте параметр Сканировать определённый поддомен или URL, чтобы направить сканер туда
Решение: Используйте ручной режим для указания точных URL

Обход с защитой паролем завершается неудачей

Убедитесь в правильности ваших учётных данных
Проверьте, использует ли вход CAPTCHA или двухфакторную аутентификацию
Попробуйте указать пользовательские имена полей в дополнительных настройках
Ваш сайт может использовать авторизацию на базе JavaScript (не поддерживается)

Альтернативы, если сканирование не работает:

Временно сделайте страницы публичными, выполните краулинг, затем снова включите защиту
Сохраните страницы как HTML-файлы и загрузите их через Массовую загрузку

Контент кажется неполным

Часть контента может загружаться через JavaScript (и не извлекаться)
Контент может быть в изображениях (не извлечён как текст)
Решение: добавьте недостающий контент вручную через загрузку текста или PDF

Документация