포럼
검색엔진 봇에 관한 질문과 XE에 대한 의견
2011.09.15 19:25
우연히 nginx 로그를 보다 참 노라운것을 발견했습니다,
66.249.71.197 - - [15/Sep/2011:18:14:23 +0800] "GET /2409/0c9/trackback HTTP/1.1" 404 169 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
구글이 방문한 로그인데요, 왜 /2409/0c9/trackback 경로를 방문하죠?
그러고 보니 구글봇이 방문한 로그중 대부분이 이런 문제로그더군요,
그래서 에러로그를 확인해본결과 더 놀랍더군요 , 해당 페이지는 찾을수 없는 페이지 임으로 모두 구글봇이 방문한 에러,
여기서 질문이 생기죠, 소스를 본 결과 페이지에 이런 링크를 생성할만한 소스는 없는데 입구가 어디죠?
그리고 다른 로그도 보니 회원가입페이지,로그인페이지,글쓰기 페이지 쉬도때도 없이 봇이 방문하던데,
문제는 여기서 시작이네요, 봇이 방문하는 속도는 홈페이지 규모에 따라 다릅니다,
SEO의 기초는 최대한 많은 정확한 페이지를 검색엔진이 수록하는거죠,
그럼 소형 규모의 홈피에 구글봇이 하루에 2000페이지를 방문한다고 가정하면
여기서 위와 같은 에러 때문에 정상수록하지 못하는게 운영자에겐 엄청난 피해라고 생각합니다.
그래서 지금 robots.txt 작성해서 본문페이지,페이지,게시글리스트 만 방문할수 있도록 작성할려구 하는데
생각보다 쉽지가 않네요, 액션중에 참 많은 액션이 검색엔진에겐 쓸모 없는 페이지인데,
그래서 말인데 좀더 전문적인 분이 SEO방면을 잘 고려해서 훌륭한 robots.txt를 작성하고
운영진이 이 robots.txt를 정식버전에 추가하면 어떨까 생각합니다
전 일단 임시로 하나 만들어서 설정해야하겠네요 ,
여기서 질문:
/index.php?mid=dom&act=dispBoardWrite 라면dispBoardWrite가 들어간 모든 링크 접근 금지 할려면
어떻게 설정해야하죠?
User-agent: *
Disallow: /*dispBoardWrite
이렇게 설정하는게 맞는지 궁금합니다
금방 효과가 나타나지 않으니까 답답하네요
그런데 xe의 한 게시물을 robots.txt를 켜두면 두가지로 긁어가던데
(1) www.****.com/xe/freeboard/111
(2) www.****.com/xe/111
1번의 경우는 긁어가게 나두고 2번째만 막는 방법 없을까요?
disallow: /xe 하고 allow: /freeboard 하면 두가지 다 차단되던데 방법이 없을까요 XE 구조상의 문제인지 이리저리 해봐도
안되네요. ㅜㅜ