Voltar ao Painel

Documentação

Aprenda a usar o Asyntai

Rastreamento do Site

Extraia conteúdo automaticamente das páginas do seu site

Iniciar Rastreamento

Visão Geral

O rastreador de sites descobre e extrai automaticamente conteúdo de múltiplas páginas do seu site. Em vez de adicionar páginas uma por uma, você pode rastrear todo o seu site (ou seções específicas) e ter todo o conteúdo adicionado à base de conhecimento da sua IA automaticamente.

O rastreador segue links para descobrir páginas, extrai conteúdo de texto e processa tudo para que sua IA possa responder perguntas sobre o seu site.

Enriquecimento automático de conteúdo

Se o seu site é construído em uma plataforma popular como WordPress, Shopify, WooCommerce, Drupal, Squarespace ou Strapi, o rastreador puxa automaticamente conteúdo estruturado adicional ao lado das páginas regulares — como todo o seu catálogo de produtos, postagens de blog, categorias e listagens.

Você não precisa configurar nada. Se o seu site é construído em uma plataforma suportada, sua IA obtém automaticamente conhecimento mais rico e melhor organizado.

Modos de Rastreamento

Você pode escolher entre dois modos de rastreamento dependendo das suas necessidades:

Modo Automático

O rastreador começa pela sua página inicial e descobre páginas automaticamente seguindo links. Ele também verifica seu sitemap.xml se disponível. Ideal para rastrear todo o seu site ou grandes seções dele.

Todos os Planos

Modo Manual

Você especifica URLs exatas para rastrear (separadas por vírgula). O rastreador visita apenas essas páginas específicas. Ideal quando você quer apenas determinadas páginas adicionadas à sua base de conhecimento.

Limites de Rastreamento por Plano

O número máximo de páginas que você pode rastrear depende do seu plano:

Plano Máximo de Páginas Modo Manual Protegido por Senha
Free 50 páginas
Starter 250 páginas
Standard 1.000 páginas
Pro 5.000 páginas

Páginas Protegidas por Senha

Precisa rastrear páginas protegidas por login? Ative a opção "Páginas Protegidas por Senha" para rastrear conteúdo exclusivo para membros, painéis ou qualquer área protegida por senha do seu site.

Como Usar

  1. Ative o botão "Páginas Protegidas por Senha" na página de rastreamento
  2. Insira a URL da Página de Login (ex.: seusite.com/login)
  3. Insira seu Usuário/Email e Senha
  4. Clique em Iniciar Rastreamento - o sistema fará login primeiro e depois rastreará as páginas protegidas

Como funciona

Quando você ativa a proteção por senha, o rastreador:

  1. Visita sua página de login e detecta os campos do formulário automaticamente
  2. Envia suas credenciais (incluindo quaisquer tokens CSRF)
  3. Mantém a sessão autenticada durante o rastreamento
  4. Começa a partir de onde você é redirecionado após o login (ex.: seu painel)
  5. Descobre e rastreia todas as páginas protegidas que encontrar

Dica: O rastreador detecta automaticamente campos de formulário (email, nome de usuário, senha) e tokens de segurança, funcionando com a maioria dos formulários de login sem configuração adicional.

Avançado: Nomes de Campos Personalizados

Se seu formulário de login usa nomes de campo não padronizados, expanda a seção "Avançado" e especifique:

  • Nome do campo de usuário - O nome do campo do formulário para usuário/email (ex.: user_email)
  • Nome do campo de senha - O nome do campo do formulário para senha (ex.: user_pass)

Limitações: O rastreamento protegido por senha funciona com formulários de login HTML padrão. Pode não funcionar com:

  • Logins baseados em JavaScript (React, Vue, Angular single-page apps)
  • Logins protegidos por CAPTCHA ou reCAPTCHA
  • Autenticação de dois fatores (2FA)
  • Logins OAuth (Google, Facebook, etc.)
  • Fluxos de login em múltiplas etapas

Dica: Em vez de usar sua conta pessoal, considere criar uma conta dedicada especificamente para rastreamento. Isso permite controlar exatamente o que o rastreador pode acessar.

Melhores Práticas

Antes do Rastreamento

  • Certifique-se de que seu site está acessível e as páginas carregam corretamente
  • Verifique se as páginas importantes estão vinculadas à página inicial ou ao sitemap
  • Para rastreamentos protegidos por senha, verifique se suas credenciais funcionam

Escolhendo Páginas

  • Comece pelas páginas mais importantes - páginas de produtos, FAQs, serviços
  • Use o modo Manual se precisar apenas de páginas específicas
  • Evite rastrear páginas com informações desatualizadas ou imprecisas

Após o Rastreamento

  • Revise o conteúdo rastreado na sua base de conhecimento
  • Remova quaisquer páginas irrelevantes que foram capturadas
  • Teste sua IA com perguntas sobre o conteúdo rastreado
  • Rastreie novamente periodicamente para manter o conteúdo atualizado

Nota: Cada novo rastreamento substitui o anterior para aquele site. Sua IA sempre usará o conteúdo rastreado mais recentemente.

Gerenciando Páginas Rastreadas

Após a conclusão de um rastreamento, você pode visualizar e gerenciar páginas individuais na seção Base de Conhecimento do seu Painel.

Visualizando Conteúdo da Página

  1. Acesse seu Painel e abra a seção Base de Conhecimento
  2. Clique em um item de rastreamento para abri-lo — você verá uma lista de todas as páginas rastreadas
  3. Clique em qualquer título de página para visualizar o conteúdo extraído
  4. Use o botão Voltar às páginas para retornar à lista de páginas

Dica: Visualizar páginas é uma ótima maneira de verificar se o rastreador extraiu o conteúdo correto. Se uma página parecer errada, você pode editá-la diretamente ou excluí-la e adicionar o conteúdo manualmente.

Edição de páginas individuais

Você pode editar o conteúdo extraído de qualquer página rastreada. Isso é útil para corrigir problemas de formatação, remover seções irrelevantes ou adicionar informações ausentes.

  1. Abra o item de rastreamento e clique em um título de página para ver seu conteúdo
  2. Clique no botão Editar no topo da visualização
  3. Modifique o título ou conteúdo conforme necessário
  4. Clique em Salvar e Re-incorporar — os embeddings de IA da página serão regenerados com o conteúdo atualizado

Nota: Editar uma página apenas re-incorpora aquela página específica, não todo o rastreamento. Suas outras páginas rastreadas não são afetadas.

Re-rastreamento de páginas individuais

Se uma página do seu site foi atualizada, você pode re-rastrear apenas essa página sem re-rastrear todo o seu site.

  1. Abra o item de rastreamento na sua Base de Conhecimento
  2. Clique no botão re-crawl ao lado da página que deseja atualizar
  3. Confirmar — a página será recuperada novamente e seus embeddings atualizados com o conteúdo mais recente

Dica: Isso é ótimo para manter páginas individuais atualizadas após alterações de conteúdo, sem precisar re-rastrear centenas de páginas.

Excluindo Páginas Individuais

Você pode remover páginas específicas de um rastreamento sem excluir todo o rastreamento. Isso é útil para remover páginas irrelevantes, duplicadas ou rastreadas incorretamente.

  1. Abra o item de rastreamento na sua Base de Conhecimento
  2. Clique no botão excluir ao lado da página que deseja remover
  3. Confirme a exclusão — a página e seus embeddings serão removidos permanentemente

Nota: Se você excluir todas as páginas de um rastreamento, a entrada inteira do rastreamento será automaticamente removida da sua base de conhecimento.

Solução de Problemas

O rastreamento retorna menos páginas do que o esperado

  • As páginas podem não estar vinculadas a páginas descobríveis
  • Algumas páginas podem estar bloqueadas pelo robots.txt
  • Cloudflare ou outros serviços de segurança podem bloquear o rastreador
  • Solução: Use o modo Manual para especificar URLs exatas

O rastreamento protegido por senha falha

  • Verifique se suas credenciais estão corretas
  • Verifique se seu login usa CAPTCHA ou 2FA
  • Tente especificar nomes de campos personalizados nas configurações Avançadas
  • Seu site pode usar autenticação baseada em JavaScript (não suportada)

Alternativas se o rastreamento não funcionar:

  • Torne as páginas públicas temporariamente, rastreie-as e depois reative a proteção
  • Salve as páginas como arquivos HTML e faça upload via Upload em Massa

O conteúdo aparece incompleto

  • Algum conteúdo pode ser carregado via JavaScript (não extraído)
  • O conteúdo pode estar em imagens (não extraído como texto)
  • Solução: Adicione o conteúdo ausente manualmente via upload de Texto ou PDF