Voltar ao Painel

Documentação

Aprenda a usar o Asyntai

Rastreamento do Site

Extraia conteúdo automaticamente das páginas do seu site

Iniciar Rastreamento

Visão Geral

O rastreador de sites descobre e extrai automaticamente conteúdo de múltiplas páginas do seu site. Em vez de adicionar páginas uma por uma, você pode rastrear todo o seu site (ou seções específicas) e ter todo o conteúdo adicionado à base de conhecimento da sua IA automaticamente.

O rastreador segue links para descobrir páginas, extrai conteúdo de texto e processa tudo para que sua IA possa responder perguntas sobre o seu site.

Modos de Rastreamento

You can choose between two crawl modes depending on your needs:

Modo Automático

O rastreador começa pela sua página inicial e descobre páginas automaticamente seguindo links. Ele também verifica seu sitemap.xml se disponível. Ideal para rastrear todo o seu site ou grandes seções dele.

Todos os Planos

Modo Manual

Você especifica URLs exatas para rastrear (separadas por vírgula). O rastreador visita apenas essas páginas específicas. Ideal quando você quer apenas determinadas páginas adicionadas à sua base de conhecimento.

Limites de Rastreamento por Plano

The maximum number of pages you can crawl depends on your plan:

Plano Máximo de Páginas Modo Manual Protegido por Senha
Free 50 páginas
Starter 250 páginas
Standard 1.000 páginas
Pro 5.000 páginas

Password Protected Pages

Precisa rastrear páginas protegidas por login? Ative a opção "Páginas Protegidas por Senha" para rastrear conteúdo exclusivo para membros, painéis ou qualquer área protegida por senha do seu site.

Como Usar

  1. Ative o botão "Páginas Protegidas por Senha" na página de rastreamento
  2. Insira a URL da Página de Login (ex.: seusite.com/login)
  3. Insira seu Usuário/Email e Senha
  4. Clique em Iniciar Rastreamento - o sistema fará login primeiro e depois rastreará as páginas protegidas

Como Funciona

Quando você ativa a proteção por senha, o rastreador:

  1. Visits your login page and detects the form fields automatically
  2. Envia suas credenciais (incluindo quaisquer tokens CSRF)
  3. Mantém a sessão autenticada durante o rastreamento
  4. Starts from where you're redirected after login (e.g., your dashboard)
  5. Descobre e rastreia todas as páginas protegidas que encontrar

Dica: O rastreador detecta automaticamente campos de formulário (email, nome de usuário, senha) e tokens de segurança, funcionando com a maioria dos formulários de login sem configuração adicional.

Avançado: Nomes de Campos Personalizados

Se seu formulário de login usa nomes de campo não padronizados, expanda a seção "Avançado" e especifique:

  • Nome do campo de usuário - O nome do campo do formulário para usuário/email (ex.: user_email)
  • Nome do campo de senha - O nome do campo do formulário para senha (ex.: user_pass)

Limitações: O rastreamento protegido por senha funciona com formulários de login HTML padrão. Pode não funcionar com:

  • JavaScript-based logins (React, Vue, Angular single-page apps)
  • Logins protegidos por CAPTCHA ou reCAPTCHA
  • Autenticação de dois fatores (2FA)
  • Logins OAuth (Google, Facebook, etc.)
  • Fluxos de login em múltiplas etapas

Dica: Em vez de usar sua conta pessoal, considere criar uma conta dedicada especificamente para rastreamento. Isso permite controlar exatamente o que o rastreador pode acessar.

Melhores Práticas

Antes do Rastreamento

  • Make sure your website is accessible and pages load correctly
  • Check that important pages are linked from your homepage or sitemap
  • For password-protected crawls, verify your credentials work

Escolhendo Páginas

  • Start with your most important pages - product pages, FAQs, services
  • Use o modo Manual se precisar apenas de páginas específicas
  • Evite rastrear páginas com informações desatualizadas ou imprecisas

Após o Rastreamento

  • Revise o conteúdo rastreado na sua base de conhecimento
  • Remova quaisquer páginas irrelevantes que foram capturadas
  • Teste sua IA com perguntas sobre o conteúdo rastreado
  • Rastreie novamente periodicamente para manter o conteúdo atualizado

Nota: Cada novo rastreamento substitui o anterior para aquele site. Sua IA sempre usará o conteúdo rastreado mais recentemente.

Gerenciando Páginas Rastreadas

Após a conclusão de um rastreamento, você pode visualizar e gerenciar páginas individuais na seção Base de Conhecimento do seu Painel.

Visualizando Conteúdo da Página

  1. Acesse seu Painel e abra a seção Base de Conhecimento
  2. Clique em um item de rastreamento para abri-lo — você verá uma lista de todas as páginas rastreadas
  3. Click any page title to preview its extracted content
  4. Use o botão Voltar às páginas para retornar à lista de páginas

Dica: Visualizar páginas é uma ótima maneira de verificar se o rastreador extraiu o conteúdo correto. Se uma página parecer errada, você pode editá-la diretamente ou excluí-la e adicionar o conteúdo manualmente.

Editing Individual Pages

Você pode editar o conteúdo extraído de qualquer página rastreada. Isso é útil para corrigir problemas de formatação, remover seções irrelevantes ou adicionar informações ausentes.

  1. Open the crawl item and click a page title to view its content
  2. Clique no botão Editar no topo da visualização
  3. Modifique o título ou conteúdo conforme necessário
  4. Clique em Salvar e Re-incorporar — os embeddings de IA da página serão regenerados com o conteúdo atualizado

Nota: Editar uma página apenas re-incorpora aquela página específica, não todo o rastreamento. Suas outras páginas rastreadas não são afetadas.

Re-rastreamento de páginas individuais

Se uma página do seu site foi atualizada, você pode re-rastrear apenas essa página sem re-rastrear todo o seu site.

  1. Abra o item de rastreamento na sua Base de Conhecimento
  2. Click the re-crawl button next to the page you want to update
  3. Confirmar — a página será recuperada novamente e seus embeddings atualizados com o conteúdo mais recente

Dica: Isso é ótimo para manter páginas individuais atualizadas após alterações de conteúdo, sem precisar re-rastrear centenas de páginas.

Excluindo Páginas Individuais

Você pode remover páginas específicas de um rastreamento sem excluir todo o rastreamento. Isso é útil para remover páginas irrelevantes, duplicadas ou rastreadas incorretamente.

  1. Abra o item de rastreamento na sua Base de Conhecimento
  2. Clique no botão excluir ao lado da página que deseja remover
  3. Confirme a exclusão — a página e seus embeddings serão removidos permanentemente

Nota: Se você excluir todas as páginas de um rastreamento, a entrada inteira do rastreamento será automaticamente removida da sua base de conhecimento.

Solução de Problemas

O rastreamento retorna menos páginas do que o esperado

  • As páginas podem não estar vinculadas a páginas descobríveis
  • Algumas páginas podem estar bloqueadas pelo robots.txt
  • Cloudflare ou outros serviços de segurança podem bloquear o rastreador
  • Solution: Use Manual mode to specify exact URLs

O rastreamento protegido por senha falha

  • Verifique se suas credenciais estão corretas
  • Verifique se seu login usa CAPTCHA ou 2FA
  • Try specifying custom field names in Advanced settings
  • Seu site pode usar autenticação baseada em JavaScript (não suportada)

Alternativas se o rastreamento não funcionar:

  • Torne as páginas públicas temporariamente, rastreie-as e depois reative a proteção
  • Salve as páginas como arquivos HTML e faça upload via Upload em Massa

O conteúdo aparece incompleto

  • Algum conteúdo pode ser carregado via JavaScript (não extraído)
  • O conteúdo pode estar em imagens (não extraído como texto)
  • Solução: Adicione o conteúdo ausente manualmente via upload de Texto ou PDF