웹 사이트의 robots.txt 파일을 효과적으로 설정하여 검색로봇의 수집을 관리하는 방법과 관련된 내용을 다룹니다. 여기서는 다양한 검색 엔진 기준으로 간략하게 알아보겠습니다.
robots.txt 설정하기
robots.txt는 검색로봇에게 웹사이트 및 웹페이지의 수집을 제한하거나 허용하기 위한 표준 권고안입니다. IETF에서 2022년 9월에 발행된 표준화 문서를 기반으로 합니다. 파일은 항상 사이트의 루트 디렉터리에 위치하며 일반 텍스트 파일로 작성되어야 합니다.
robots.txt 파일이 없는 경우 검색로봇은 모든 콘텐츠를 수집할 수 있도록 간주됩니다. 특정 목적을 위한 웹 스크랩퍼를 포함한 일부 검색로봇은 robots.txt 규칙을 준수하지 않을 수 있으므로, 개인 정보를 포함한 노출을 피하기 위해 로그인 기능을 활용하거나 다른 차단 방법을 사용해야 합니다.
robots.txt 위치와 HTTP 응답코드에 따른 처리
robots.txt 파일은 반드시 사이트의 루트 디렉터리에 위치해야 하며, text/plain 형식으로 접근 가능해야 합니다. 검색로봇은 HTTP 응답 코드에 따라 동작하며, 2xx 코드는 정상적으로 규칙을 해석하고 사용하고, 3xx 코드는 제한된 횟수의 redirection을 허용한 뒤 '모두 허용'으로 간주합니다. 4xx 코드는 '모두 허용'으로, 5xx 코드는 '모두 허용하지 않음'으로 해석됩니다.
robots.txt 규칙 예제
robots.txt 파일에 작성된 규칙은 같은 호스트, 프로토콜 및 포트 번호 하위의 페이지에만 유효합니다. 대표적인 규칙 예제는 다음과 같습니다
1. 다른 검색엔진의 로봇을 허용하지 않고 특정 검색로봇만 허용하는 설정
다양한 검색 엔진 회사의 검색 봇 이름
구글: Googlebot
네이버: Yeti
다음: Daum
빙: Bingbot
덕덕고: DuckDuckBot
* 여기서는 Yeti인 Naver 검색 봇을 기준으로 설명하겠습니다. 각 회사의 검색 봇 이름으로 대체하면 됩니다.
```
User-agent *
Disallow /
User-agent Yeti
Allow /
```
2. 모든 검색엔진의 로봇을 허용하는 설정
```
User-agent *
Allow /
```
3. 사이트의 루트 페이지만 허용하는 설정
```
User-agent *
Disallow /
Allow /$
```
4. 특정 페이지를 수집 금지로 설정하는 예제
```
User-agent Yeti
Disallow /private*/
```
5. 모든 검색로봇에게 모든 페이지 수집 금지 설정
```
User-agent *
Disallow /
```
자바스크립트 및 CSS 파일 수집 허용
robots.txt 규칙 내에서 자바스크립트 및 CSS 파일과 같은 리소스 URL을 수집 비허용으로 처리하는 경우가 있습니다. 이로 인해 네이버 검색로봇이 페이지의 주요 영역을 해석하는 데 어려움을 겪을 수 있습니다. 따라서 이러한 리소스 파일을 허용해야 합니다.
파비콘(favicon) 수집 허용
파비콘과 관련된 내부 구성요소는 문서와 동일하게 robots.txt 규칙으로 설정되어야 합니다. 파비콘에 대한 자세한 내용은 파비콘 마크업 가이드를 참고하세요.
sitemap.xml 지정
내 사이트의 페이지 목록이 있는 sitemap.xml의 위치를 robots.txt에 기록하여 검색로봇이 사이트의 콘텐츠를 더 잘 수집할 수 있도록 도움을 줄 수 있습니다.
```
User-agent *
Allow /
Sitemap http//www.example.com/sitemap.xml
```
웹마스터도구의 robots.txt 도구 활용
각각의 검색엔진에서 제공하는 웹마스터 도구에서 제공하는 robots.txt 도구를 활용하면 쉽게 사이트의 robots.txt 파일을 관리할 수 있습니다. 이 도구는 수집 및 검증, 간단 생성 등의 기능을 제공합니다.
1. robots.txt 수집 및 검증 사이트의 루트 디렉터리에 있는 robots.txt 파일을 수정한 뒤 검색로봇에게 빠르게 알릴 수 있습니다. 또한 설정된 로봇 규칙에 따라 웹 페이지의 수집 가능 여부를 테스트할 수 있습니다.
2. robots.txt 간단 생성 robots.txt 파일을 간단하게 생성한 후 다운로드할 수 있습니다. 다운로드한 파일을 사이트의 루트 디렉터리에 업로드한 후 검색로봇이 인식할 수 있습니다.
자세한 사항은 웹마스터 가이드를 활용하여 웹 사이트의 검색 최적화를 수행하세요.