웹사이트 크롤링

웹사이트 페이지에서 자동으로 콘텐츠를 추출합니다

크롤링 시작

개요

웹사이트 크롤러는 웹사이트의 여러 페이지에서 자동으로 콘텐츠를 검색하고 추출합니다. 페이지를 하나씩 추가하는 대신 전체 사이트(또는 특정 섹션)를 크롤링하여 모든 콘텐츠를 AI의 지식 베이스에 자동으로 추가할 수 있습니다.

크롤러는 링크를 따라 페이지를 검색하고, 텍스트 콘텐츠를 추출하며, 모든 것을 처리하여 AI가 웹사이트에 대한 질문에 답변할 수 있도록 합니다.

크롤링 모드

필요에 따라 두 가지 크롤링 모드 중에서 선택할 수 있습니다:

자동 모드

크롤러는 홈페이지에서 시작하여 링크를 따라 자동으로 페이지를 검색합니다. 사용 가능한 경우 sitemap.xml도 확인합니다. 전체 웹사이트 또는 대규모 섹션을 크롤링하는 데 가장 적합합니다.

모든 플랜

수동 모드

크롤링할 정확한 URL을 지정합니다(쉼표로 구분). 크롤러는 해당 특정 페이지만 방문합니다. 특정 페이지만 지식 베이스에 추가하려는 경우에 가장 적합합니다.

플랜별 크롤링 제한

크롤링할 수 있는 최대 페이지 수는 플랜에 따라 다릅니다:

플랜 최대 페이지 수동 모드 비밀번호 보호
무료 50 페이지
Starter 250 페이지
Standard 1,000 페이지
Pro 5,000 페이지

비밀번호 보호 페이지

로그인 뒤의 페이지를 크롤링해야 하나요? "비밀번호 보호 페이지" 옵션을 활성화하여 회원 전용 콘텐츠, 대시보드 또는 웹사이트의 비밀번호 보호 영역을 크롤링하세요.

사용 방법

  1. 크롤링 페이지에서 "비밀번호 보호 페이지" 토글을 활성화합니다
  2. 로그인 페이지 URL을 입력합니다 (예: yoursite.com/login)
  3. 사용자 이름/이메일비밀번호를 입력합니다
  4. 크롤링 시작을 클릭합니다 - 시스템이 먼저 로그인한 후 보호된 페이지를 크롤링합니다

작동 방식

비밀번호 보호를 활성화하면 크롤러는:

  1. 로그인 페이지를 방문하여 양식 필드를 자동으로 감지합니다
  2. 자격 증명을 제출합니다(CSRF 토큰 포함)
  3. 크롤링하는 동안 인증된 세션을 유지합니다
  4. 로그인 후 리디렉션되는 곳에서 시작합니다(예: 대시보드)
  5. 찾을 수 있는 모든 보호된 페이지를 검색하고 크롤링합니다

팁: 크롤러는 양식 필드(이메일, 사용자 이름, 비밀번호)와 보안 토큰을 자동으로 감지하므로 추가 구성 없이 대부분의 로그인 양식에서 작동합니다.

고급: 사용자 정의 필드 이름

로그인 양식이 비표준 필드 이름을 사용하는 경우 "고급" 섹션을 확장하고 다음을 지정하세요:

  • 사용자 이름 필드 이름 - 사용자 이름/이메일의 양식 필드 이름 (예: user_email)
  • 비밀번호 필드 이름 - 비밀번호의 양식 필드 이름 (예: user_pass)

제한 사항: 비밀번호 보호 크롤링은 표준 HTML 로그인 양식에서 작동합니다. 다음과는 작동하지 않을 수 있습니다:

  • JavaScript 기반 로그인 (React, Vue, Angular 싱글 페이지 앱)
  • CAPTCHA 또는 reCAPTCHA 보호 로그인
  • 2단계 인증(2FA)
  • OAuth 로그인 (Google, Facebook 등)
  • 다단계 로그인 절차

팁: 개인 계정을 사용하는 대신 크롤링 전용 계정을 만드는 것을 고려하세요. 이렇게 하면 크롤러가 접근할 수 있는 항목을 정확하게 제어할 수 있습니다.

모범 사례

크롤링 전

  • 웹사이트에 접근할 수 있고 페이지가 올바르게 로드되는지 확인하세요
  • 중요한 페이지가 홈페이지 또는 사이트맵에서 링크되어 있는지 확인하세요
  • 비밀번호 보호 크롤링의 경우 자격 증명이 작동하는지 확인하세요

페이지 선택

  • 가장 중요한 페이지부터 시작하세요 - 제품 페이지, FAQ, 서비스
  • 특정 페이지만 필요한 경우 수동 모드를 사용하세요
  • 오래되었거나 부정확한 정보가 있는 페이지 크롤링을 피하세요

크롤링 후

  • 지식 베이스에서 크롤링된 콘텐츠를 검토하세요
  • 수집된 관련 없는 페이지를 제거하세요
  • 크롤링된 콘텐츠에 대한 질문으로 AI를 테스트하세요
  • 콘텐츠를 최신 상태로 유지하기 위해 정기적으로 다시 크롤링하세요

참고: 각 새 크롤링은 해당 웹사이트의 이전 크롤링을 대체합니다. AI는 항상 가장 최근에 크롤링된 콘텐츠를 사용합니다.

크롤링된 페이지 관리

크롤링이 완료되면 대시보드의 지식 베이스 섹션에서 개별 페이지를 미리 보고 관리할 수 있습니다.

페이지 콘텐츠 미리보기

  1. 대시보드로 이동하여 지식 베이스 섹션을 엽니다
  2. 크롤링 항목을 클릭하여 열면 — 모든 크롤링된 페이지 목록이 표시됩니다
  3. 페이지 제목을 클릭하여 추출된 콘텐츠를 미리 봅니다
  4. 페이지로 돌아가기 버튼을 사용하여 페이지 목록으로 돌아갑니다

팁: 페이지를 미리 보는 것은 크롤러가 올바른 콘텐츠를 추출했는지 확인하는 좋은 방법입니다. 페이지가 잘못된 것 같으면 직접 편집하거나 삭제하고 대신 수동으로 콘텐츠를 추가할 수 있습니다.

개별 페이지 편집

크롤링된 페이지의 추출된 콘텐츠를 편집할 수 있습니다. 서식 문제를 수정하거나 관련 없는 섹션을 제거하거나 누락된 정보를 추가하는 데 유용합니다.

  1. 크롤링 항목을 열고 페이지 제목을 클릭하여 콘텐츠를 봅니다
  2. 미리보기 상단의 편집 버튼을 클릭합니다
  3. 필요에 따라 제목이나 콘텐츠를 수정합니다
  4. 저장 및 재임베딩을 클릭합니다 — 업데이트된 콘텐츠로 페이지의 AI 임베딩이 재생성됩니다

참고: 페이지를 편집하면 전체 크롤링이 아닌 해당 특정 페이지만 재임베딩됩니다. 다른 크롤링된 페이지는 영향을 받지 않습니다.

개별 페이지 재크롤링

웹사이트의 페이지가 업데이트된 경우 전체 웹사이트를 다시 크롤링하지 않고 해당 페이지만 다시 크롤링할 수 있습니다.

  1. 지식 베이스에서 크롤링 항목을 엽니다
  2. Click the re-crawl button next to the page you want to update
  3. 확인 — 페이지가 다시 가져와지고 임베딩이 최신 콘텐츠로 업데이트됩니다

팁: 이것은 수백 페이지를 다시 크롤링할 필요 없이 콘텐츠 변경 후 개별 페이지를 최신 상태로 유지하는 데 유용합니다.

개별 페이지 삭제

전체 크롤링을 삭제하지 않고 크롤링에서 특정 페이지를 제거할 수 있습니다. 관련 없거나 중복되었거나 잘못 크롤링된 페이지를 제거하는 데 유용합니다.

  1. 지식 베이스에서 크롤링 항목을 엽니다
  2. 제거하려는 페이지 옆의 삭제 버튼을 클릭합니다
  3. 삭제를 확인합니다 — 페이지와 해당 임베딩이 영구적으로 제거됩니다

참고: 크롤링에서 모든 페이지를 삭제하면 전체 크롤링 항목이 지식 베이스에서 자동으로 제거됩니다.

문제 해결

크롤링이 예상보다 적은 페이지를 반환합니다

  • 페이지가 검색 가능한 페이지에서 링크되지 않았을 수 있습니다
  • 일부 페이지가 robots.txt에 의해 차단되었을 수 있습니다
  • Cloudflare 또는 기타 보안 서비스가 크롤러를 차단했을 수 있습니다
  • Solution: Use Manual mode to specify exact URLs

비밀번호 보호 크롤링이 실패합니다

  • 자격 증명이 올바른지 확인하세요
  • 로그인에 CAPTCHA 또는 2FA가 사용되는지 확인하세요
  • 고급 설정에서 사용자 정의 필드 이름을 지정해 보세요
  • 사이트에서 JavaScript 기반 인증을 사용할 수 있습니다(지원되지 않음)

크롤링이 작동하지 않는 경우 대안:

  • 일시적으로 페이지를 공개하고, 크롤링한 후 보호를 다시 활성화하세요
  • 페이지를 HTML 파일로 저장하고 일괄 업로드를 통해 업로드하세요

콘텐츠가 불완전하게 표시됩니다

  • 일부 콘텐츠가 JavaScript로 로드되었을 수 있습니다(추출되지 않음)
  • 콘텐츠가 이미지에 있을 수 있습니다(텍스트로 추출되지 않음)
  • 해결 방법: 텍스트 또는 PDF 업로드를 통해 누락된 콘텐츠를 수동으로 추가하세요