사이트 제작 후 사이트맵과 robots.txt를 준비해 놓고 네이버와 구글 등 검색엔진에 등록해야 합니다.
본 포스트는 사이트 제작 이후 검색 엔진 등록 연관 포스트 중 2번째 ” robots.txt 파일 만들기” 입니다.
- 사이트맵 만들기
- robots.txt 파일 만들기
- 구글 서치 콘솔 Google search console에 등록하기
- 네이버 서치 어드바이저에 등록하기
robots.txt 는 검색로봇에게 웹사이트를 수집할 수 있도록 신호를 보내는 국제 권고안으로 IETF에서 2002년 9월 표준화 하였습니다.
- 파일 이름은 robots.txt 여만 하며 사이트에 하나만 있어야 합니다.
- 항상 루트 폴더에 위치해야 합니다. : https://www.yourdomain.com/robots.txt
- 일반 텍스트 파일 txt 로 만들어야 합니다.
메모장 등 텍스트 편집이 가능한 에디터로 쉽게 만들 수 있으며 간단한 규칙으로 누구나 쉽게 만들 수 있습니다.
1. 규칙
User-agent: *
Allow:/
Disallow:/wp-admin/
*= 모든 검색 엔진의 로봇에 수집을 허용한다.
Allow=사이트 전체를 허용한다.
Disallow=wp-admin 주소는 검색에 노출이 되지 않게 해달라는 겁니다.
2. 로봇이름
구글: Googlebot
네이버: Yeti
다음: Daum
빙: Bingbot
User-agent: Yeti
Disallow:/wp-admin/
만약 이런식으로 하면 네이버 검색에서는 wp-admin 이하 폴더는 검색에 노출이 되지 않게 한다는 뜻입니다.
검색 로봇과 사이트 특성에 맞춰 제작을 하되 한가지 유의해야 할 사항은 Allow가 Disallow보다 우선한다는 겁니다. 즉 상위 폴더를 Allow 해놓고 하위 폴더를 Disallow 해도 소용이 없습니다.
가장 기본적이면 아래 정도가 아닐까 싶습니다.
User-agent: *
Disallow:/wp-admin/
robots.txt는 권고안이라 반드시 해야 할 필요는 없습니다만 나이키처럼 멋지게 꾸며놓은 곳도 있습니다.
https://www.nike.com/robots.txt
반면에 크롤링으로 먹고사는 회사임에도 크롤링을 막아 놓은 회사도 있습니다. “네이버”는 아래와 같은 robots.txt를 가지고 있습니다. “모든 검색엔진은 모든 페이지에 접근이 불가능하고, 오직 첫 페이지만 접근이 가능하다.”
User-agent: *
Disallow: /
Allow : /$
robots.txt와 사이트맵이 준비되었다면 이제 네이버와 구글에 사이트 등록을 해보도록 하겠습니다.
