네이버 웹로봇은 robots.txt를 지키지 않는가? :: 2006/02/12 17:40

김중태컬럼의 구굴이 한국에서 성공할 수 없는 이유에도 소개되어 있지만, 구글은 robots.txt를 지키느라, 네이버쪽 컨텐츠를 인덱스할 수 없고, 반면 구글은 robots.txt에 왠만한 서비스들은 다 허용한다는 점. 그로 인해, 국내 검색에서는 네이버를 따라 갈 수 없었다.

그런 네이버의 웹로봇은 robots.txt 조차 지키지 않는건가?

아래는 이곳 서버의 네이버웹로봇 접속 로그중 일부. 이곳은 "/data" 디렉토리에 개인적 자료들을 저장하고 있으므로, 웹로봇접근을 불허하고 있지만, 떠억하니 계속해서 자료들을 퍼가고 있다. 이곳 서버에는 정말로 다양한 웹로봇들이 들락날락거리지만, 금지된 곳을 뒤지는 로봇은 네이버봇뿐이다.


222.122.194.111 - - [12/Feb/2006:17:13:58 +0900] "GET /robots.txt HTTP/1.1" 200 50 "-" "NaverBot-1.0 (NHN Corp. / +82-31-784-1989 / nhnbot@naver.com)"
222.122.194.111 - - [12/Feb/2006:17:13:59 +0900] "GET /data/doc/btc/Papers/Information_Theory?C=M&O=A HTTP/1.1" 301 397 "-" "NaverBot-1.0 (NHN Corp. / +82-31-784-1989 / nhnbot@naver.com)"
222.122.194.111 - - [12/Feb/2006:17:13:59 +0900] "GET /data/doc/btc/Papers/Information_Theory/?C=M&O=A HTTP/1.1" 200 1008 "-" "NaverBot-1.0 (NHN Corp. / +82-31-784-1989 / nhnbot@naver.com)"


더 어이없었던 점은, 저 웹로그에 표시된 nhnbot@naver.com 은 도대체 뭔지. 항의코저 메일을 보냈으나, 없는 메일주소라면서 반송되었다. 나원 참~ 이거 장난하는 것도 아니고. 로그에 적힌 메일주소는 그냥 멋있으라고 있는건가?

P.S/

지나가시던 분이 지적을 해주셨습니다, 제가 좀 경솔하게 포스팅을 했습니다. 제 서버의 설정에 대해 정확히 이해하지 못한 상태에서 글을 썼네요. 잘못된 정보를 알리게 되어서 죄송합니다.
Trackback Address :: http://yong27.biohackers.net/trackback/185
  • 지나다가 | 2006/02/12 18:27 | PERMALINK | EDIT/DEL | REPLY

    로봇 설정이 잘못되어 있는 것 같은데요.
    http://biohackers.net/robots.txt 를 보니
    "User-agent: Mediapartners-Google*
    Disallow: /data"
    이거 하나 뿐으로 되어 있어서 구글 로봇만 금지하고 있다고 되어 있는 것 같아 보이는군요.
    즉, 그 로봇 외에 당연히 다른 로봇들은 안막고 있는 상태입니다.

    http://www.robotstxt.org/wc/robots.html
    여기를 참고로 다시 한번 설정을 해보시는 것이 좋겠네요.

  • never | 2006/02/12 21:04 | PERMALINK | EDIT/DEL | REPLY

    네이버,구글검색을 사용해보면 네이버 검색에서 답을 얻는경우는 매우 드물더군요. 네이버가 좀 다른점은 뉴스 검색,까페,블로그(이웃),지역검색.한게임, 뭐 이런것들이네요.

Name
Password
Homepage
Secret