본문 바로가기
  • LIFE IS A JOURNEY

웹페이지와 PDF 동시 게시해도 SEO에 문제없는 이유

by sean979 2023. 12. 16.

목차

    인터넷을 검색하다 보면 같은 내용의 콘텐츠가 웹페이지로도 검색되고 같은 내용의 PDF가 검색되는 경우가 있습니다. 이런 경우 중복 콘텐츠일 것 같은데 괜찮을 것일까요? 

     

    구글 상위노출 검색엔진 SEO 최적화 포인트

     

    동일한-내용의-PDF를-발행해도-SEO에-문제-없을까-썸네일

     

    우선 정답을 말한다면 동일한 내용의 콘텐츠를 블로그 및 웹페이지와 PDF 두 가지 형태로 공개해도 구글 검색에서 문제가 되지 않습니다. 구글을 동일한 내용이더라도 적절히 처리할 수 있다고 밝혔는데 자세한 내용은 아래에서 알아보겠습니다.

     

    웹페이지와 PDF를 동시 게시해도 문제없는 이유

    같은 콘텐츠를 웹페이지와 다운로드 가능한 PDF 파일 두 가지 형태로 동시에 공개해도 문제가 없을까요? 가장 속시원하게 정답을 들을 수 있는 곳은 구글입니다. 구글의 존 뮬러(John Mueller)가 동영상으로 답변한 내용입니다.

    구글의 존 뮬러 답변 동영상 내용 번역

    전혀 문제가 없다.

    구글의 시스템은 두 가지 유형의 페이지를 모두 찾아내어 별도로 색인화할 수 있고, 기술적으로 중복되는 단어가 있더라도 검색 결과에 독립적으로 표시될 수 있다.

     

    필요한 경우 이를 관리할 수 있는 제어 방법도 있다. 예를 들어 noindex HTTP 헤더나 robots 메타 태그를 사용하여 둘 중 하나의 인덱싱을 차단하거나 rel=canonical 링크 요소를 사용하여 구글에 어느 쪽을 우선시할 것인지를 알려줄 수 있다.

     

    실제로 많은 경우 콘텐츠는 두 가지 형식 중 하나만 존재한다. 이는 단순히 사용자가 원하는 형식이기 때문이다. 식당의 메뉴판이라면 스마트폰으로 보는 사람이 많기 때문에 일반 HTML 페이지가 적합하다.

     

    반면, 하드카피로 작성해야 하는 특정 양식이 있다면 PDF 파일을 사용하는 것이 합리적이다. 가이드북이나 사례 연구와 같이 두 가지 형식 모두에서 잘 작동하는 콘텐츠도 있다.

     

    구글 시스템이 이러한 콘텐츠를 중복으로 판단하는 경우 일반적으로 HTML 페이지 버전에 우선순위를 부여한다. 또한 PDF 파일에는 웹 사이트 링크를 포함할 것을 권장한다. 이렇게 하면 사용자가 웹 사이트로 다시 돌아올 수 있다.

    존 뮬러 답변 동영상은 하단에 링크되어 있습니다.

    위 답변 내용 요약

    • 동일한 콘텐츠를 웹페이지와 PDF 두 가지 형식으로 게시해도 구글 검색에 문제가 없다.
    • HTTP 헤더를 구성하면 한쪽의 인덱스를 차단하거나 한쪽을 정규화할 수 있다.
    • 어떤 형식이 적합한지는 기기나 목적에 따라 달라질 수 있다.
    • 구글이 중복 콘텐츠라고 판단할 경우 일반적으로 HTML 버전을 우선시한다.
    • PDF에 웹 페이지의 링크를 게시하는 것이 좋습니다.
    SEO 최적화를 위한 필수 체크리스트 10가지

     

    PDF 색인 및 정규화 제어 가능할까?

    구글의 존 뮬러 답변에 따르면 PDF는 HTML 파일이 아니기 때문에 robot meta 태그는 설정할 수 없지만, HTTP 헤더로 PDF의 색인 및 정규화를 제어할 수 있다고 답변했습니다.

    모든 PDF 파일 인덱싱 차단하는 방법

    예를 들어, 사이트 내 모든 PDF 파일의 인덱싱을 차단하려면 Apache의 .htacess에 다음과 같이 작성할 수 있습니다.

    <Files ~ "\.pdf$">
    Header set X-Robots-Tag "noindex"
    </Files>

     

    NGINX의 경우는 아래와 같이 작성할 수 있습니다.

    location ~ \.pdf$ {
    add_header X-Robots-Tag "noindex";
    }

     

    웹페이지와-PDF-동시-게시-정규화

     

    동일한 PDF,웹페이지를 웹페이지로 정규화하는 방법

    dummy.pdf라는 PDF 문서를 동일한 내용의 example.com/dummy-data/ 라는 URL의 웹페이지로 정규화하려면 Apache에서는 다음과 같이 작성할 수 있다.

    Apache 설정 방법

    <FilesMatch "sample.pdf">
    Header set link 'https://www.example.com/dummy-data/; rel="canonical"'
    </FilesMatch>

    NGINX 설정 방법

    location ~ ^/sample\.pdf$ {
      add_header Link '<https://www.example.com/dummy-data/>; rel="canonical"';
    }

     

    구글은 2001년부터 오랜 기간 PDF 파일을 색인해왔습니다. PDF 색인 생성에 관련한 FAQ를 모아 두었으니 필요하신 분은 참고하시면 도움이 되실 겁니다.

     

     

     

    ▼ 함께 읽으면 좋은 글

     

    내부 링크 SEO 영향 및 효과적으로 내부링크 거는 방법

    SEO의 중요한 항목으로 내부 링크가 있습니다. 내부 링크가 SEO에 효과가 있을까요? 내부 링크는 SEO에서 매우 효과적이고 영향력 있는 중요한 내부 방법 중 하나라는 것입니다. SEO 구글 상위노출

    seanheo.tistory.com

     

    티스토리 블로그 브레드크럼(breadcrumbs) 추가하는 방법

    SEO 최적화 방법 중 하나인 브레드크럼(breadcrumbs)은 사이트나 앱에서 사용자에 현재 어디에 위치하고 있는지를 보여주는 2차적 내비게이션입니다. 티스토리 블로그 브레드크럼을 설치하여 SEO 최

    seanheo.tistory.com

     

    SEO 구글 상위노출 검색엔진 최적화 중요한 포인트

    웹사이트 또는 블로그를 운영하는 사람이라면 검색엔진을 의식하고 검색 순위 상승과 상위 노출을 위한 검색엔진 최적화인 SEO에 알맞도록 콘텐츠를 작성해야 합니다. 그 이유는 여전히 검색을

    seanheo.tistory.com

     

    댓글