Сканиране на уебсайт
Автоматично извличане на съдържание от страниците на вашия уебсайт
Преглед
Уеб обходчикът автоматично открива и извлича съдържание от множество страници на вашия уебсайт. Вместо да добавяте страници една по една, можете да обходите целия си сайт (или конкретни секции) и цялото съдържание да бъде автоматично добавено в базата от знания на вашия AI.
Обходчикът следва връзки, за да открива страници, извлича текстово съдържание и обработва всичко, така че вашият AI да може да отговаря на въпроси за вашия уебсайт.
Режими на обхождане
You can choose between two crawl modes depending on your needs:
Автоматичен режим
Обходчикът започва от началната ви страница и автоматично открива страници, като следва връзки. Проверява и вашия sitemap.xml, ако е наличен. Най-добър за обхождане на целия ви уебсайт или големи секции от него.
Всички плановеРъчен режим
Вие указвате точните URL адреси за обхождане (разделени със запетая). Обходчикът посещава само тези конкретни страници. Най-добър, когато искате само определени страници да бъдат добавени в базата ви от знания.
Starter+Лимити за обхождане по план
Максималният брой страници, които можете да обходите, зависи от вашия план:
| План | Макс. страници | Ръчен режим | Защитен с парола |
|---|---|---|---|
| Безплатен | 50 страници | ||
| Starter | 250 страници | ||
| Standard | 1 000 страници | ||
| Pro | 5 000 страници |
Страници, защитени с парола Starter+
Нужно ви е да обходите страници зад вход? Активирайте опцията "Страници, защитени с парола", за да обходите съдържание само за членове, табла за управление или други защитени с парола области на вашия уебсайт.
Как да използвате
- Активирайте превключвателя "Страници, защитени с парола" на страницата за обхождане
- Въведете вашия URL на страницата за вход (напр.
yoursite.com/login) - Въведете вашето Потребителско име/Имейл и Парола
- Натиснете Започнете обхождане - системата първо ще влезе, след което ще обходи защитените страници
Как работи
Когато активирате защита с парола, обходчикът:
- Visits your login page and detects the form fields automatically
- Изпраща вашите идентификационни данни (включително всички CSRF токени)
- Поддържа автентикираната сесия по време на обхождане
- Starts from where you're redirected after login (e.g., your dashboard)
- Открива и обхожда всички защитени страници, които може да намери
Съвет: Обходчикът автоматично открива полетата на формуляра (имейл, потребителско име, парола) и токените за сигурност, така че работи с повечето формуляри за вход без допълнителна конфигурация.
Разширени: Персонализирани имена на полета
Ако вашият формуляр за вход използва нестандартни имена на полета, разгънете секцията "Разширени" и укажете:
- Име на полето за потребителско име - Името на полето на формуляра за потребителско име/имейл (напр.
user_email) - Име на полето за парола - Името на полето на формуляра за парола (напр.
user_pass)
Ограничения: Обхождането на защитени с парола страници работи със стандартни HTML формуляри за вход. Може да не работи с:
- JavaScript-based logins (React, Vue, Angular single-page apps)
- Входове, защитени с CAPTCHA или reCAPTCHA
- Двуфакторна автентикация (2FA)
- OAuth входове (Google, Facebook и др.)
- Многостъпкови процеси за вход
Съвет: Вместо да използвате личния си акаунт, помислете за създаване на специален акаунт за обхождане. Това ви позволява да контролирате точно до какво обходчикът има достъп.
Най-добри практики
Преди обхождане
- Уверете се, че вашият уебсайт е достъпен и страниците се зареждат правилно
- Check that important pages are linked from your homepage or sitemap
- For password-protected crawls, verify your credentials work
Избор на страници
- Започнете с най-важните си страници - продуктови страници, ЧЗВ, услуги
- Използвайте ръчен режим, ако ви трябват само конкретни страници
- Избягвайте обхождане на страници с остаряла или неточна информация
След обхождане
- Прегледайте обходеното съдържание в базата ви от знания
- Премахнете всички неподходящи страници, които са били заснети
- Тествайте вашия AI с въпроси за обходеното съдържание
- Обхождайте периодично, за да поддържате съдържанието актуално
Забележка: Всяко ново обхождане заменя предишното за този уебсайт. Вашият AI винаги ще използва най-скоро обходеното съдържание.
Управление на обходените страници
След като обхождането завърши, можете да преглеждате и управлявате отделни страници от секцията База от знания на вашето Табло за управление.
Преглед на съдържанието на страницата
- Отидете на вашето Табло за управление и отворете секцията База от знания
- Натиснете върху елемент от обхождането, за да го отворите — ще видите списък с всички обходени страници
- Click any page title to preview its extracted content
- Използвайте бутона Обратно към страниците, за да се върнете към списъка със страници
Съвет: Прегледът на страниците е чудесен начин да проверите дали обходчикът е извлякъл правилното съдържание. Ако дадена страница изглежда неправилно, можете да я редактирате директно или да я изтриете и да добавите съдържанието ръчно.
Редактиране на отделни страници Starter+
Можете да редактирате извлеченото съдържание на всяка обходена страница. Това е полезно за коригиране на проблеми с форматирането, премахване на неподходящи секции или добавяне на липсваща информация.
- Open the crawl item and click a page title to view its content
- Натиснете бутона Редактиране в горната част на прегледа
- Променете заглавието или съдържанието според нуждите
- Натиснете Запазване и повторно вграждане — AI вгражданията на страницата ще бъдат регенерирани с актуализираното съдържание
Забележка: Редактирането на страница повторно вгражда само тази конкретна страница, не цялото обхождане. Другите ви обходени страници не са засегнати.
Повторно обхождане на отделни страници Starter+
Ако страница на вашия уебсайт е била обновена, можете да обходите отново само тази страница, без да обхождате целия уебсайт.
- Отворете елемента от обхождането от вашата База от знания
- Click the re-crawl button next to the page you want to update
- Потвърдете — страницата ще бъде извлечена отново и нейните вграждания ще бъдат обновени с най-новото съдържание
Съвет: Това е чудесно за поддържане на отделни страници актуални след промени в съдържанието, без да се налага повторно обхождане на стотици страници.
Изтриване на отделни страници
Можете да премахнете конкретни страници от обхождане, без да изтривате цялото обхождане. Това е полезно за премахване на неподходящи, дублиращи се или неправилно обходени страници.
- Отворете елемента от обхождането от вашата База от знания
- Натиснете бутона изтриване до страницата, която искате да премахнете
- Потвърдете изтриването — страницата и нейните вграждания ще бъдат окончателно премахнати
Забележка: Ако изтриете всички страници от обхождане, целият запис за обхождане ще бъде автоматично премахнат от вашата база от знания.
Отстраняване на проблеми
Обхождането връща по-малко страници от очакваното
- Страниците може да не са свързани от откриваеми страници
- Някои страници може да са блокирани от robots.txt
- Cloudflare или други услуги за сигурност може да блокират обходчика
- Solution: Use Manual mode to specify exact URLs
Обхождането на защитени с парола страници е неуспешно
- Проверете дали идентификационните ви данни са правилни
- Проверете дали входът ви използва CAPTCHA или 2FA
- Опитайте да укажете персонализирани имена на полета в Разширените настройки
- Your site might use JavaScript-based authentication (not supported)
Алтернативи, ако обхождането не работи:
- Временно направете страниците публични, обходете ги, след което отново активирайте защитата
- Запазете страниците като HTML файлове и ги качете чрез Групово качване
Съдържанието изглежда непълно
- Част от съдържанието може да е заредено чрез JavaScript (не е извлечено)
- Съдържанието може да е в изображения (не е извлечено като текст)
- Решение: Добавете липсващото съдържание ръчно чрез качване на текст или PDF