Rastreo del sitio web
Extrae automáticamente el contenido de las páginas de su sitio web
Descripción general
El rastreador del sitio web descubre y extrae automáticamente contenido de múltiples páginas de su sitio web. En lugar de añadir páginas una por una, puede rastrear todo su sitio (o secciones específicas) y tener todo el contenido añadido a la base de conocimiento de su IA automáticamente.
El rastreador siga enlaces para descubrir páginas, extrae contenido de texto y procesa todo para que su IA pueda responder preguntas sobre su sitio web.
Modos de rastreo
Puede elegir entre dos modos de rastreo según sus necesidades:
Modo automático
El rastreador comienza desde su página de inicio y descubre páginas automáticamente siguiendo enlaces. También verifique su sitemap.xml si está disponible. Ideal para rastrear todo su sitio web o grandes secciones.
Todos los planesModo manual
Especificas las URLs exactas a rastrear (separadas por comas). El rastreador solo visite esas páginas específicas. Ideal cuando solo quiere ciertas páginas añadidas a su base de conocimiento.
Starter+Límites de rastreo por plan
El número máximo de páginas que puede rastrear depende de su plan:
| Plan | Páginas máx. | Modo manual | Protegido con contraseña |
|---|---|---|---|
| Free | 50 páginas | ||
| Starter | 250 páginas | ||
| Standard | 1,000 páginas | ||
| Pro | 5,000 páginas |
Password Protected Pages Starter+
¿Necesita rastrear páginas detrás de un inicio de sesión? Active la opción "Páginas protegidas con contraseña" para rastrear contenido solo para miembros, paneles o cualquier área protegida con contraseña de su sitio web.
Cómo usar
- Active el interruptor "Páginas protegidas con contraseña" en la página de rastreo
- Ingrese su URL de inicio de sesión (por ejemplo,
tusitio.com/login) - Ingrese su Usuario/Email y Contraseña
- Haga clic en Iniciar rastreo - el sistema iniciará sesión primero, luego rastreará las páginas protegidas
Cómo funciona
Cuando activas la protección por contraseña, el rastreador:
- Visits your login page and detects the form fields automatically
- Envíe sus credenciales (incluyendo tokens CSRF)
- Mantiene la sesión autenticada mientras rastrea
- Starts from where you're redirected after login (e.g., your dashboard)
- Descubre y rastrea todas las páginas protegidas que puede encontrar
Consejo: El rastreador detecta automáticamente los campos del formulario (email, usuario, contraseña) y tokens de seguridad, por lo que funciona con la mayoría de los formularios de inicio de sesión sin configuración adicional.
Avanzado: Nombres de campos personalizados
Si su formulario de inicio de sesión use nombres de campos no estándar, expande la sección "Avanzado" y específica:
- Nombre del campo de usuario - El nombre del campo del formulario para usuario/email (por ejemplo,
user_email) - Nombre del campo de contraseña - El nombre del campo del formulario para contraseña (por ejemplo,
user_pass)
Limitaciones: El rastreo con contraseña funciona con formularios de inicio de sesión HTML estándar. Puede no funcionar con:
- JavaScript-based logins (React, Vue, Angular single-page apps)
- Inicios de sesión protegidos con CAPTCHA o reCAPTCHA
- Autenticación de dos factores (2FA)
- Inicios de sesión OAuth (Google, Facebook, etc.)
- Flujos de inicio de sesión de múltiples pasos
Consejo: En lugar de usar su cuenta personal, considera crear una cuenta dedicada específicamente para el rastreo. Esto le permite controlar exactamente a qué puede acceder el rastreador.
Mejores prácticas
Antes de rastrear
- Make sure your website is accessible and pages load correctly
- Check that important pages are linked from your homepage or sitemap
- Para rastreos con contraseña, verifique que sus credenciales funcionen
Elegir páginas
- Start with your most important pages - product pages, FAQs, services
- Use el modo Manual si solo necesita páginas específicas
- Evita rastrear páginas con información desactualizada o incorrecta
Después de rastrear
- Revise el contenido rastreado en su base de conocimiento
- Elimina las páginas irrelevantes que se hayan capturado
- Pruebe su IA con preguntas sobre el contenido rastreado
- Re-crawl periodically to keep content up to date
Nota: Cada nuevo rastreo reemplaza el anterior para ese sitio web. Su IA siempre usará el contenido rastreado más reciente.
Gestión de páginas rastreadas
Después de que se complete un rastreo, puede previsualizar y gestionar páginas individuales desde la sección de Base de conocimiento en su Panel.
Previsualizar contenido de la página
- Ve a su Panel y abra la sección Base de conocimiento
- Haga clic en un elemento rastreado para abrirlo — verá una lista de todas las páginas rastreadas
- Click any page title to preview its extracted content
- Use el botón Volver a páginas para regresar a la lista de páginas
Consejo: Previsualizar páginas es una excelente forma de verificar que el rastreador extrajo el contenido correcto. Si una página no se ve bien, puede editarla directamente o eliminarla y añadir el contenido manualmente.
Editar páginas individuales Starter+
Puede editar el contenido extraído de cualquier página rastreada. Esto es útil para corregir problemas de formato, eliminar secciones irrelevantes o añadir información faltante.
- Open the crawl item and click a page title to view its content
- Click the Edit button at the top of the preview
- Modifica el título o contenido según sea necesario
- Haga clic en Guardar y re-embeber — los embeddings de IA de la página se regenerarán con el contenido actualizado
Nota: Editar una página solo re-embebe esa página específica, no todo el rastreo. Sus otras páginas rastreadas no se ven afectadas.
Re-rastreo de páginas individuales Starter+
Si una página de su sitio web ha sido actualizada, puede volver a rastrear solo esa página sin rastrear todo su sitio web.
- Abra el elemento rastreado desde su Base de conocimiento
- Click the re-crawl button next to the page you want to update
- Confirmar — la página se volverá a obtener y sus embeddings se actualizarán con el contenido más reciente
Consejo: Esto es ideal para mantener páginas individuales actualizadas después de cambios de contenido, sin tener que volver a rastrear cientos de páginas.
Eliminar páginas individuales
Puede eliminar páginas específicas de un rastreo sin eliminar todo el rastreo. Esto es útil para eliminar páginas irrelevantes, duplicadas o rastreadas incorrectamente.
- Abra el elemento rastreado desde su Base de conocimiento
- Haga clic en el botón eliminar junto a la página que deseas eliminar
- Confirma la eliminación — la página y sus embeddings se eliminarán permanentemente
Nota: Si eliminas todas las páginas de un rastreo, la entrada completa del rastreo se eliminará automáticamente de su base de conocimiento.
Solución de problemas
El rastreo devuelve menos páginas de las esperadas
- Las páginas podrían no estar enlazadas desde páginas descubribles
- Algunas páginas podrían estar bloqueadas por robots.txt
- Cloudflare or other security services might block the crawler
- Solution: Use Manual mode to specify exact URLs
El rastreo con contraseña falla
- Verifique que sus credenciales sean correctas
- Compruebe si su inicio de sesión use CAPTCHA o 2FA
- Try specifying custom field names in Advanced settings
- Su sitio podría usar autenticación basada en JavaScript (no soportada)
Alternativas si el rastreo no funciona:
- Haga las páginas públicas temporalmente, rastréalas y luego vuelve a activar la protección
- Guarde las páginas como archivos HTML y súbelos a través de Carga masiva
El contenido aparece incompleto
- Parte del contenido podría cargarse vía JavaScript (no se extrae)
- El contenido podría estar en imágenes (no se extrae como texto)
- Solución: Añada el contenido faltante manualmente a través de carga de Texto o PDF