SEO의 시작, robots.txt의 모든 것.

홈페이지를 돈 없이 홍보하기 좋은 방법 중 하나가 검색엔진 최적화(SEO)입니다.

검색 엔진이 최적화가 될 경우, 검색 시 더 많은 노출 기회를 가지게 되고, 이는 별도의 비용 없이 좀 더 많은 방문자가 방문을 할 수 있도록 도와주는 효과를 가지게 됩니다.

robots.txt는 웹사이트에서 크롤링하며 정보를 수집하는 검색엔진 크롤러(또는 검색 로봇)가 액세스 하거나 정보수집을 해도 되는 페이지가 무엇인지, 해서는 안 되는 페이지가 무엇인지 알려주는 역할을 하는. txt (텍스트) 파일입니다.

robots.txt 파일은 검색엔진 크롤러가 웹사이트에 접속하여 정보 수집을 하며 보내는 요청(request)으로 인해 사이트 과부하되는 것을 방지하기 위해 사용됩니다.

- 검색엔진 크롤러의 과도한 크롤링 및 요청으로 인한 과부하 방지

: 크롤러의 정보 수집 및 크롤링을 제한함으로써 불필요한 요청을 줄이고, 서버에서 처리해야 하는 요청을 줄여 과부하로 인한 문제가 생기는 것을 방지할 수 있습니다.

- 검색엔진 크롤러의 일일 요청 수를 뜻하는 크롤 버짓 (또는 크롤링 예산 – Crawl budget) 낭비 방지

: 검색엔진은 웹사이트에 방문해 정보를 수집할 때 웹사이트의 규모를 포함한 여러 가지 요소들을 고려하여 하루에 얼마나 많은 페이지를 방문 및 수집할지 설정합니다.

- 검색엔진 크롤러에게 사이트맵 (sitemap.xml)의 위치를 제공하여 웹사이트의 콘텐츠가 검색엔진에게 더 잘 발견

: 구글 서치 콘솔이나 네이버 서치 어드바이저와 같은 웹마스터 도구를 이용해 사이트맵을 검색엔진에 제출할 수 있지만, robots.txt에 사이트맵 디렉터리를 언급함으로써 사이트맵이 구글과 네이버를 포함한 다른 검색 검색엔진 크롤러에게 빠르게 발견될 수 있습니다.

robots.txt는 텍스트 파일(.txt)로 작성을 해야 하며, 검색엔진 크롤러/디렉터리 제한을 할 수 있는 정보들을 담아야 합니다.

# 기본 형식

User-agent: *
Allow:/

User-agent: robots.txt 에서 지정하는 크롤링 규칙이 적용되어야 할 크롤러를 지정합니다. 각 사이트 마다 검색엔진은 다르며, 각 사이트들의 검색엔진의 네임은 아래와 같으며, 모두 허용일 때에는 * 이라고 표시를 합니다.
- 구글: Googlebot
- 네이버: Yeti
- 다음: Daum
- 빙: Bingbot
- 덕덕고: DuckDuckBot
Allow: 크롤링을 허용할 경로입니다 (/ 부터의 상대 경로).
Disallow: 크롤링을 제한할 경로입니다 (/ 부터의 상대 경로).
Sitemap: 사이트맵이 위치한 경로의 전체 URL입니다 (https:// 부터 /sitemap.xml까지의 전체 절대경로 URL).
Crawl-delay: 검색은 허용하되 해당 초동안은 다시 방문을 하지 않도록 설정합니다.

단위 변환 (px, in, mm, cm, dpi) (0)	2024.07.16
https: 쉽게하는 카페24에 무료 ssl 설치 방법 (0)	2024.06.29
프린터기 없이PC에서 출력하지않고 PDF로 만드는 방법 (0)	2024.06.03
JAVA와 Python 이란?(공통점과 차이점) (0)	2024.05.30
웹사이트 개발시 네이버 앱에서 CSS 오류 및 화면 깨질때 (0)	2024.04.30

hayo' study