Rastreamento do Site
Extraia conteúdo automaticamente das páginas do seu site
Visão Geral
O rastreador de sites descobre e extrai automaticamente conteúdo de múltiplas páginas do seu site. Em vez de adicionar páginas uma por uma, você pode rastrear todo o seu site (ou seções específicas) e ter todo o conteúdo adicionado à base de conhecimento da sua IA automaticamente.
O rastreador segue links para descobrir páginas, extrai conteúdo de texto e processa tudo para que sua IA possa responder perguntas sobre o seu site.
Modos de Rastreamento
You can choose between two crawl modes depending on your needs:
Modo Automático
O rastreador começa pela sua página inicial e descobre páginas automaticamente seguindo links. Ele também verifica seu sitemap.xml se disponível. Ideal para rastrear todo o seu site ou grandes seções dele.
Todos os PlanosModo Manual
Você especifica URLs exatas para rastrear (separadas por vírgula). O rastreador visita apenas essas páginas específicas. Ideal quando você quer apenas determinadas páginas adicionadas à sua base de conhecimento.
Starter+Limites de Rastreamento por Plano
The maximum number of pages you can crawl depends on your plan:
| Plano | Máximo de Páginas | Modo Manual | Protegido por Senha |
|---|---|---|---|
| Free | 50 páginas | ||
| Starter | 250 páginas | ||
| Standard | 1.000 páginas | ||
| Pro | 5.000 páginas |
Password Protected Pages Starter+
Precisa rastrear páginas protegidas por login? Ative a opção "Páginas Protegidas por Senha" para rastrear conteúdo exclusivo para membros, painéis ou qualquer área protegida por senha do seu site.
Como Usar
- Ative o botão "Páginas Protegidas por Senha" na página de rastreamento
- Insira a URL da Página de Login (ex.:
seusite.com/login) - Insira seu Usuário/Email e Senha
- Clique em Iniciar Rastreamento - o sistema fará login primeiro e depois rastreará as páginas protegidas
Como Funciona
Quando você ativa a proteção por senha, o rastreador:
- Visits your login page and detects the form fields automatically
- Envia suas credenciais (incluindo quaisquer tokens CSRF)
- Mantém a sessão autenticada durante o rastreamento
- Starts from where you're redirected after login (e.g., your dashboard)
- Descobre e rastreia todas as páginas protegidas que encontrar
Dica: O rastreador detecta automaticamente campos de formulário (email, nome de usuário, senha) e tokens de segurança, funcionando com a maioria dos formulários de login sem configuração adicional.
Avançado: Nomes de Campos Personalizados
Se seu formulário de login usa nomes de campo não padronizados, expanda a seção "Avançado" e especifique:
- Nome do campo de usuário - O nome do campo do formulário para usuário/email (ex.:
user_email) - Nome do campo de senha - O nome do campo do formulário para senha (ex.:
user_pass)
Limitações: O rastreamento protegido por senha funciona com formulários de login HTML padrão. Pode não funcionar com:
- JavaScript-based logins (React, Vue, Angular single-page apps)
- Logins protegidos por CAPTCHA ou reCAPTCHA
- Autenticação de dois fatores (2FA)
- Logins OAuth (Google, Facebook, etc.)
- Fluxos de login em múltiplas etapas
Dica: Em vez de usar sua conta pessoal, considere criar uma conta dedicada especificamente para rastreamento. Isso permite controlar exatamente o que o rastreador pode acessar.
Melhores Práticas
Antes do Rastreamento
- Make sure your website is accessible and pages load correctly
- Check that important pages are linked from your homepage or sitemap
- For password-protected crawls, verify your credentials work
Escolhendo Páginas
- Start with your most important pages - product pages, FAQs, services
- Use o modo Manual se precisar apenas de páginas específicas
- Evite rastrear páginas com informações desatualizadas ou imprecisas
Após o Rastreamento
- Revise o conteúdo rastreado na sua base de conhecimento
- Remova quaisquer páginas irrelevantes que foram capturadas
- Teste sua IA com perguntas sobre o conteúdo rastreado
- Rastreie novamente periodicamente para manter o conteúdo atualizado
Nota: Cada novo rastreamento substitui o anterior para aquele site. Sua IA sempre usará o conteúdo rastreado mais recentemente.
Gerenciando Páginas Rastreadas
Após a conclusão de um rastreamento, você pode visualizar e gerenciar páginas individuais na seção Base de Conhecimento do seu Painel.
Visualizando Conteúdo da Página
- Acesse seu Painel e abra a seção Base de Conhecimento
- Clique em um item de rastreamento para abri-lo — você verá uma lista de todas as páginas rastreadas
- Click any page title to preview its extracted content
- Use o botão Voltar às páginas para retornar à lista de páginas
Dica: Visualizar páginas é uma ótima maneira de verificar se o rastreador extraiu o conteúdo correto. Se uma página parecer errada, você pode editá-la diretamente ou excluí-la e adicionar o conteúdo manualmente.
Editing Individual Pages Starter+
Você pode editar o conteúdo extraído de qualquer página rastreada. Isso é útil para corrigir problemas de formatação, remover seções irrelevantes ou adicionar informações ausentes.
- Open the crawl item and click a page title to view its content
- Clique no botão Editar no topo da visualização
- Modifique o título ou conteúdo conforme necessário
- Clique em Salvar e Re-incorporar — os embeddings de IA da página serão regenerados com o conteúdo atualizado
Nota: Editar uma página apenas re-incorpora aquela página específica, não todo o rastreamento. Suas outras páginas rastreadas não são afetadas.
Re-rastreamento de páginas individuais Starter+
Se uma página do seu site foi atualizada, você pode re-rastrear apenas essa página sem re-rastrear todo o seu site.
- Abra o item de rastreamento na sua Base de Conhecimento
- Click the re-crawl button next to the page you want to update
- Confirmar — a página será recuperada novamente e seus embeddings atualizados com o conteúdo mais recente
Dica: Isso é ótimo para manter páginas individuais atualizadas após alterações de conteúdo, sem precisar re-rastrear centenas de páginas.
Excluindo Páginas Individuais
Você pode remover páginas específicas de um rastreamento sem excluir todo o rastreamento. Isso é útil para remover páginas irrelevantes, duplicadas ou rastreadas incorretamente.
- Abra o item de rastreamento na sua Base de Conhecimento
- Clique no botão excluir ao lado da página que deseja remover
- Confirme a exclusão — a página e seus embeddings serão removidos permanentemente
Nota: Se você excluir todas as páginas de um rastreamento, a entrada inteira do rastreamento será automaticamente removida da sua base de conhecimento.
Solução de Problemas
O rastreamento retorna menos páginas do que o esperado
- As páginas podem não estar vinculadas a páginas descobríveis
- Algumas páginas podem estar bloqueadas pelo robots.txt
- Cloudflare ou outros serviços de segurança podem bloquear o rastreador
- Solution: Use Manual mode to specify exact URLs
O rastreamento protegido por senha falha
- Verifique se suas credenciais estão corretas
- Verifique se seu login usa CAPTCHA ou 2FA
- Try specifying custom field names in Advanced settings
- Seu site pode usar autenticação baseada em JavaScript (não suportada)
Alternativas se o rastreamento não funcionar:
- Torne as páginas públicas temporariamente, rastreie-as e depois reative a proteção
- Salve as páginas como arquivos HTML e faça upload via Upload em Massa
O conteúdo aparece incompleto
- Algum conteúdo pode ser carregado via JavaScript (não extraído)
- O conteúdo pode estar em imagens (não extraído como texto)
- Solução: Adicione o conteúdo ausente manualmente via upload de Texto ou PDF