본문 바로가기
  • LIFE IS A JOURNEY

크롤링이란? SEO에 중요한 크롤러 작동 원리 파악하기

by sean979 2023. 12. 16.

목차

    SEO에서 사용자의 검색의도에 부합되는 양질의 콘텐츠를 만들어도 해당 페이지가 검색엔진에 크롤링되어 색인되지 않으면 검색 순위의 대상이 되지 못합니다. 또한, 크롤링은 한 번만 하는 것이 아니라 여러 번 크롤링되어야 더 정확하게 색인화될 수 있으며 검색 평가에도 좋은 영향을 미칩니다.

     

    저품질 콘텐츠는 SEO에 어떤 영향을 미칠까? 개선방법은?

     

    크롤러-작동-원리-썸네일

     

    크롤링이 잘 되는 웹사이트를 만드는 것은 SEO에서 매우 중요한 요소입니다. SEO에서 크롤링의 원리와 인덱싱의 흐름, 크롤링에 더 잘 노출되기 위한 방법 및 크롤링 가능성 개선 방법에 대해 아래에서 알아보겠습니다.

     

     

    SEO에서 크롤링이란?

     

    크롤러라고 불리는 로봇이 웹페이지를 발견하고 순회하며 해당 페이지의 내용을 읽고 콘텐츠나 이미지, 파일 등을 수집하는 것을 크롤링이라고 합니다.

     

    크롤링으로 수집된 페이지의 내용이 검색엔진(Google, Naver, Bing 등)의 데이터베이스에 등록되는 것을 인덱싱이라고 하며, 우리는 색인이라는 단어로 많이 쓰고 있습니다.

     

    아무리 좋은 콘텐츠라도 웹페이지가 검색엔진에 색인화되지 않으면 검색결과에 노출되지 않기 때문에, SEO에서 크롤링되는 것은 필수적입니다. 우리가 고민해봐야 할 부분은 어떻게 하면 최적의 크롤링을 할 수 있느냐가 중요합니다.

    색인이란?

    색인이란 웹페이지가 검색엔진의 데이터베이스에 등록되는 것을 의미합니다.

     

    자세히 말하면 검색엔진이 웹페이지에 기재된 텍스트, 이미지, 동영상 파일 등을 분석하여 검색 알고리즘에 적합한 상태로 데이터베이스에 등록하는 것을 의미하며 이 상태를 색인됨, 색인완료, 수집완료 등의 표시합니다.

     

    크롤러 종류

    크롤러는 검색엔진마다 존재합니다. 재미있게도 크롤러의 고유한 이름이 있다는 것입니다.

    • 네이버 크롤러 : Yeti
    • 다음 크롤러 : Daumoa
    • 줌 크롤러 : Zumbot
    • 구글 크롤러: Googlebot
    • Bing 크롤러: Bingbot
    • Baidu 크롤러: Baiduspider
    • DuckDuckGo 크롤러 : DuckDuckBot

    한국은 네이버와 구글의 점유율이 높기 때문에 SEO 역시 이 두 곳에만 염두하지만 점유율이 낮더라도 모든 검색엔진에게 우리 웹페이지의 정보를 알려주는 것이 좋습니다. (국내 검색엔진 및 구글 검색엔진)

     

    SEO 최적화를 위한 필수 체크리스트 10가지

     

    Googlebot이란?

    Googlebot은 구글의 웹 크롤러의 총칭이며, 데스크탑용 크롤러와 스마트폰용 모바일 크롤러 두 가지가 있습니다.

     

    구글은 모바일용 사이트 평가에 따라 검색 순위를 결정하는 모바일 퍼스트 인덱스(MFI)를 도입하여 현재 대부분의 사이트가 스마트폰용 Googlebot으로 크롤링되고 있습니다. 웹페이지를 모바일에 최적화될 수 있도록 제작하는 것이 필수적입니다.

    크롤링과 SEO의 관계

    SEO에서는 크롤링되는 것이 중요하지만 웹페이지는 한 번만 크롤링되면 끝이 아닙니다. 여러번 반복적으로 크롤링되어야 페이지 정보가 검색엔진에 더 정확하게 읽히고 정확하게 색인화될 수 있습니다.

     

    SEO의 내부 최적화로 크롤러빌리티를 개선하여 크롤링을 촉진하는 것이 매우 중요합니다.

    크롤링 구조와 흐름

    크롤러는 웹페이지의 링크를 따라 새로운 페이지를 발견하면서 크롤링합니다. 따라서 크롤링이 잘 되기 위해서는 내부 링크 구조가 매우 중요합니다. 하지만 모든 페이지를 링크만으로 찾아주기란 쉽지 않습니다.

     

    새로운 사이트나 신규 발행 페이지는 발견되기까지 시간이 걸릴 수 있기 때문에 빠르게 크롤링될 수 있도록 하는 여러 가지 방법을 아래에서 알아보겠습니다.

     

     

    크롤링을 촉진하는 방법

    구글의 크롤링 기술은 매우 뛰어나서 대부분의 경우 별다른 조치를 취하지 않아도 자연스럽게 크롤링됩니다. 하지만 자연 크롤링은 크롤링되기까지 어느 정도 시간이 걸리게 됩니다.

     

    최신 정보를 검색결과에 빠르게 노출시키기 위해서는 빠른 크롤링을 유도하는 것도 중요합니다. 콘텐츠 게시 후 바로 크롤링되도록 하려면 아래와 같습니다.

     

    구글서치콘솔 크롤링 요청하기

    구글서치콘솔 URL 검사에서 크롤링을 요청하면 빠르게 웹페이지를 색인화할 수 있습니다.

    1. 서치 콘솔에 로그인하여 대상 속성(웹사이트)을 선택합니다.
    2. 상단의 URL 검사 입력 필드에 크롤링할 URL을 입력합니다.
    3. '공개 URL'을 눌러 색인 등록 가능 여부를 테스트합니다.
    4. 검사 결과를 확인하고 오류 등 문제가 없으면 색인 등록 요청

    색인 등록을 요청하면 우선순위 크롤링 대기열에 추가되어 평소보다 빠르게 크롤링되며, 일반적으로 요청 후 24시간 정도면 색인이 완료되는 경우가 많지만 소요되는 시간은 다를 수 있습니다.

     

    색인 등록 요청 후 며칠, 몇주가 지나도 색인이 생성되지 않는다면 다른 문제로 볼 수 있습니다. 아래 글을 참고하시면 도움이 될 수 있으니 꼭 읽어보시기 바랍니다.

    XML 사이트맵 등록하기

    웹사이트의 경우는 XML을 별도로 만들어 줘야 하지만 워드프레스, 티스토리 등의 플랫폼을 별도로 만들 필요는 없습니다. 아직 sitemap을 등록하지 않았다면 빠르게 등록을 하는 것을 권장드립니다. sitemap.xml은 검색엔진이 색인할 URL을 찾는 데 도움을 주는 역할을 하기 때문입니다.

     

    "사이트맵의 역할은 검색엔진에 알려줌으로써 더 빠른 크롤링을 유도할 수 있습니다."

     

    사이트맵 제출 방법

    구글 서치 콘솔의 '사이트맵'에서 사이트에 설치한 XML 사이트맵 URL을 제출하면 구글에 최신 XML 사이트맵을 불러올 수 있습니다.

     

    또 하나는 검색엔진 주소창에서 직접 Ping을 전송하여 XML 사이트맵의 정보를 검색엔진에 전달할 수도 있습니다.

    네이버-검색엔진-사이트맵-제출구글-검색엔진-사이트맵-제출

     

    아래 링크는 각각의 검색엔진에 등록하는 방법이 나와있는 글입니다. 아직 등록을 하지 못한 분이시라면 참고해보시기 바랍니다.

     

    구글 크롤러에게 크롤링 요청하기 (ping)

    ping 기능을 이용한 XML 사이트맵 전송 방법으로 브라우저 URL 입력창에 아래와 같이 본인의 사이트맵.xml을 기재 후 전송하세요

    https://google.com/ping?sitemap=https://domein.com/sitemap.xml

     

    수신이 완료되면 Sitemap 알림 접수 메시지가 아래와 같이 표시됩니다.

    구글-사이트맵-ping-접수-완료-화면

     

    크롤링 개선하는 방법

    크롤링하기 쉽게 하기 위해서는 크롤러에게 친화적인 구조로 설계하는 것이 중요합니다. 크롤러빌리티를 개선하기 위한 몇가지 방법을 알아보겠습니다.

     

    브레드크럼

    브레드크럼은 사용자에게 웹페이지가 어느 디렉토리에 위치해 있는지 알려주는 역할을 하며, 검색엔진 크롤러에게도 디렉토리 구조를 이해하고 순회하기 쉽도록 도와주는 역할을 합니다. 이런 이유로 사용성 측면에서도 크롤러빌리티 측면에서도 중요한 역할을 합니다.

     

    ▼ 브레드크럼 티스토리 블로그에 적용하는 방법

    티스토리 브레드크럼 추가하는 방법

     

    내부 링크 사용

    콘텐츠 영역에서 관련 페이지로 내부 링크를 설치하면 관련성이 높은 페이지로의 크롤링을 촉진할 수 있습니다. 크롤러는 링크를 따라 사이트 전체를 순회하기 때문에 링크가 촘촘히 배치되어 있으면 크롤링 빈도가 높아집니다.

     

    하지만 단순히 링크만 달면 되는 것은 아닙니다.

    콘텐츠의 주제가 연관된 페이지끼리 서로 연결되면 크롤링이 개선될 뿐만 아니라 주제와 내용이 강조되어 검색 평가도 더 높아집니다. 관련성이 낮은 페이지로의 링크는 오히려 역효과를 낼 수 있으므로 주의해야 합니다.

     

    ▼ 내부 링크 SEO 영향과 내부링크 거는 방법

    내부링크 SEO 영향 및 내부링크 거는방법

     

     

    디렉토리(카테고리) 계층을 깊게 만들지 않는다

    크롤러는 링크를 따라 페이지를 발견하기 때문에 계층이 깊으면 페이지를 발견하는 데 시간이 오래 걸리고 크롤링이 어려워집니다.

     

    디렉토리 계층이 얕을수록 크롤러가 쉽게 찾을 수 있습니다. 계층구조가 얕다고 해서 SEO 평가에 직접적인 영향을 미치는 것은 아니지만 크롤링 최적화를 위해서는 너무 깊은 계층의 카테고리를 사용하는 것은 좋지 않습니다.

     

    만약 부득이하게 디렉토리 구조가 깊은 사이트를 운영할 경우 사이트맵을 잘 설정하고 링크 계층이 얕아질 수 있도록 내부 링크를 적절히 넣는 등의 조치를 취하면 크롤링에 도움이 됩니다.

     

     

     

    ▼함께 읽으면 좋은 글

     

    웹페이지와 PDF 동시 게시해도 SEO에 문제없는 이유

    인터넷을 검색하다 보면 같은 내용의 콘텐츠가 웹페이지로도 검색되고 같은 내용의 PDF가 검색되는 경우가 있습니다. 이런 경우 중복 콘텐츠일 것 같은데 괜찮을 것일까요? 구글 상위노출 검색

    seanheo.tistory.com

     

    애드센스 수익형 블로그 첫시작 도움되는 팁

    블로그를 첫 시작시 미리 챙기면 좋은 것들을 정리하여 몇 가지 공유하려 합니다. 애드센스 수익화를 위해서는 애드센스 승인 과정을 거쳐야 하는데 네이버 블로그는 애드센스 광고 연동이 되

    seanheo.tistory.com

     

    이밖에도 페이지 속도를 개선하는 것도 SEO관점에서나 크롤링 촉진하는데 도움이 됩니다. 그 이유는 페이지 속도를 개선하는 것은 크롤링 속도도 빨라지는 것을 의미하기 때문입니다.

     

    크롤링 속도 향상에는 페이지 속도 개선도 중요합니다. 현재 구글은 '코어 웹 바이탈'을 랭킹의 한 요소로 반영하고 있습니다.

     

    코어 웹 바이탈은 검색 사용자의 양질의 검색 경험을 평가하기 위한 세 가지 지표를 통칭하는데 LCP(Largest Contentful Paint)는 페이지 내 가장 큰 요소가 표시되기까지의 시간, FID(First Input Delay)는 버튼이나 링크 등 사용자가 조작할 수 있는 요소가 로딩되기까지의 시간 등 3가지 지표 중 2가지 지표가 페이지 속도를 중심으로 평가됩니다.

    댓글