Rastreo del sitio web
Extraiga automáticamente el contenido de las páginas de su sitio web
Descripción general
El rastreador del sitio web descubre y extrae automáticamente contenido de múltiples páginas de su sitio web. En lugar de añadir páginas una por una, puede rastrear todo su sitio (o secciones específicas) y tener todo el contenido añadido a la base de conocimiento de su IA automáticamente.
El rastreador sigue enlaces para descubrir páginas, extrae contenido de texto y procesa todo para que su IA pueda responder preguntas sobre su sitio web.
Enriquecimiento automático de contenido
Si tu sitio web está construido en una plataforma popular como WordPress, Shopify, WooCommerce, Drupal, Squarespace o Strapi, el rastreador incorpora automáticamente contenido estructurado adicional junto con las páginas normales — como todo tu catálogo de productos, publicaciones del blog, categorías y listados.
No necesitas configurar nada. Si tu sitio está construido en una plataforma compatible, tu IA obtiene conocimiento más rico y mejor organizado automáticamente.
Modos de rastreo
Puede elegir entre dos modos de rastreo según sus necesidades:
Modo automático
El rastreador comienza desde su página de inicio y descubre páginas automáticamente siguiendo enlaces. También verifica su sitemap.xml si está disponible. Ideal para rastrear todo su sitio web o grandes secciones.
Todos los planesModo manual
Especificas las URLs exactas a rastrear (separadas por comas). El rastreador solo visita esas páginas específicas. Ideal cuando solo quiere ciertas páginas añadidas a su base de conocimiento.
Starter+Límites de rastreo por plan
El número máximo de páginas que puede rastrear depende de su plan:
| Plan | Páginas máx. | Modo manual | Protegido con contraseña |
|---|---|---|---|
| Free | 50 páginas | ||
| Starter | 250 páginas | ||
| Standard | 1,000 páginas | ||
| Pro | 5,000 páginas |
Páginas protegidas con contraseña Starter+
¿Necesita rastrear páginas detrás de un inicio de sesión? Active la opción "Páginas protegidas con contraseña" para rastrear contenido solo para miembros, paneles o cualquier área protegida con contraseña de su sitio web.
Cómo usar
- Active el interruptor "Páginas protegidas con contraseña" en la página de rastreo
- Ingrese su URL de inicio de sesión (por ejemplo,
tusitio.com/login) - Ingrese su Usuario/Email y Contraseña
- Haga clic en Iniciar rastreo - el sistema iniciará sesión primero, luego rastreará las páginas protegidas
Cómo funciona
Cuando activa la protección por contraseña, el rastreador:
- Visita tu página de inicio de sesión y detecta los campos del formulario automáticamente
- Envía sus credenciales (incluyendo tokens CSRF)
- Mantiene la sesión autenticada mientras rastrea
- Comienza desde donde te redirigen después de iniciar sesión (ej., tu panel de control)
- Descubre y rastrea todas las páginas protegidas que puede encontrar
Consejo: El rastreador detecta automáticamente los campos del formulario (email, usuario, contraseña) y tokens de seguridad, por lo que funciona con la mayoría de los formularios de inicio de sesión sin configuración adicional.
Avanzado: Nombres de campos personalizados
Si su formulario de inicio de sesión usa nombres de campos no estándar, expanda la sección \"Avanzado\" y especifique:
- Nombre del campo de usuario - El nombre del campo del formulario para usuario/email (por ejemplo,
user_email) - Nombre del campo de contraseña - El nombre del campo del formulario para contraseña (por ejemplo,
user_pass)
Limitaciones: El rastreo con contraseña funciona con formularios de inicio de sesión HTML estándar. Puede no funcionar con:
- Inicios de sesión basados en JavaScript (apps de página única React, Vue, Angular)
- Inicios de sesión protegidos con CAPTCHA o reCAPTCHA
- Autenticación de dos factores (2FA)
- Inicios de sesión OAuth (Google, Facebook, etc.)
- Flujos de inicio de sesión de múltiples pasos
Consejo: En lugar de usar su cuenta personal, considere crear una cuenta dedicada específicamente para el rastreo. Esto le permite controlar exactamente a qué puede acceder el rastreador.
Mejores prácticas
Antes de rastrear
- Asegúrate de que tu sitio web sea accesible y las páginas carguen correctamente
- Verifica que las páginas importantes estén enlazadas desde tu página de inicio o mapa del sitio
- Para rastreos con contraseña, verifique que sus credenciales funcionen
Elegir páginas
- Empieza con tus páginas más importantes - páginas de productos, preguntas frecuentes, servicios
- Use el modo Manual si solo necesita páginas específicas
- Evite rastrear páginas con información desactualizada o incorrecta
Después de rastrear
- Revise el contenido rastreado en su base de conocimiento
- Elimine las páginas irrelevantes que se hayan capturado
- Pruebe su IA con preguntas sobre el contenido rastreado
- Vuelve a rastrear periódicamente para mantener el contenido actualizado
Nota: Cada nuevo rastreo reemplaza el anterior para ese sitio web. Su IA siempre usará el contenido rastreado más reciente.
Gestión de páginas rastreadas
Después de que se complete un rastreo, puede previsualizar y gestionar páginas individuales desde la sección de Base de conocimiento en su Panel.
Previsualizar contenido de la página
- Vaya a su Panel y abra la sección Base de conocimiento
- Haga clic en un elemento rastreado para abrirlo — verá una lista de todas las páginas rastreadas
- Haz clic en cualquier título de página para previsualizar su contenido extraído
- Use el botón Volver a páginas para regresar a la lista de páginas
Consejo: Previsualizar páginas es una excelente forma de verificar que el rastreador extrajo el contenido correcto. Si una página no se ve bien, puede editarla directamente o eliminarla y añadir el contenido manualmente.
Editar páginas individuales Starter+
Puede editar el contenido extraído de cualquier página rastreada. Esto es útil para corregir problemas de formato, eliminar secciones irrelevantes o añadir información faltante.
- Abre el elemento de rastreo y haz clic en un título de página para ver su contenido
- Haz clic en el botón Editar en la parte superior de la vista previa
- Modifique el título o contenido según sea necesario
- Haga clic en Guardar y re-embeber — los embeddings de IA de la página se regenerarán con el contenido actualizado
Nota: Editar una página solo re-embebe esa página específica, no todo el rastreo. Sus otras páginas rastreadas no se ven afectadas.
Re-rastreo de páginas individuales Starter+
Si una página de su sitio web ha sido actualizada, puede volver a rastrear solo esa página sin rastrear todo su sitio web.
- Abra el elemento rastreado desde su Base de conocimiento
- Haz clic en el botón re-rastrear junto a la página que quieres actualizar
- Confirmar — la página se volverá a obtener y sus embeddings se actualizarán con el contenido más reciente
Consejo: Esto es ideal para mantener páginas individuales actualizadas después de cambios de contenido, sin tener que volver a rastrear cientos de páginas.
Eliminar páginas individuales
Puede eliminar páginas específicas de un rastreo sin eliminar todo el rastreo. Esto es útil para eliminar páginas irrelevantes, duplicadas o rastreadas incorrectamente.
- Abra el elemento rastreado desde su Base de conocimiento
- Haga clic en el botón eliminar junto a la página que desea eliminar
- Confirma la eliminación — la página y sus embeddings se eliminarán permanentemente
Nota: Si elimina todas las páginas de un rastreo, la entrada completa del rastreo se eliminará automáticamente de su base de conocimiento.
Solución de problemas
El rastreo devuelve menos páginas de las esperadas
- Las páginas podrían no estar enlazadas desde páginas descubribles
- Algunas páginas podrían estar bloqueadas por robots.txt
- Cloudflare u otros servicios de seguridad pueden bloquear el rastreador
- Solución: Usa el modo Manual para especificar URLs exactas
El rastreo con contraseña falla
- Verifique que sus credenciales sean correctas
- Compruebe si su inicio de sesión usa CAPTCHA o 2FA
- Intenta especificar nombres de campo personalizados en la configuración avanzada
- Su sitio podría usar autenticación basada en JavaScript (no soportada)
Alternativas si el rastreo no funciona:
- Haga las páginas públicas temporalmente, rastréelas y luego vuelva a activar la protección
- Guarde las páginas como archivos HTML y cárguelas a través de Carga masiva
El contenido aparece incompleto
- Parte del contenido podría cargarse vía JavaScript (no se extrae)
- El contenido podría estar en imágenes (no se extrae como texto)
- Solución: Añada el contenido faltante manualmente a través de carga de Texto o PDF