네이버 웹로봇은 robots.txt를 지키지 않는가? :: 2006/02/12 17:40김중태컬럼의 구굴이 한국에서 성공할 수 없는 이유에도 소개되어 있지만, 구글은 robots.txt를 지키느라, 네이버쪽 컨텐츠를 인덱스할 수 없고, 반면 구글은 robots.txt에 왠만한 서비스들은 다 허용한다는 점. 그로 인해, 국내 검색에서는 네이버를 따라 갈 수 없었다.
그런 네이버의 웹로봇은 robots.txt 조차 지키지 않는건가? 아래는 이곳 서버의 네이버웹로봇 접속 로그중 일부. 이곳은 "/data" 디렉토리에 개인적 자료들을 저장하고 있으므로, 웹로봇접근을 불허하고 있지만, 떠억하니 계속해서 자료들을 퍼가고 있다. 이곳 서버에는 정말로 다양한 웹로봇들이 들락날락거리지만, 금지된 곳을 뒤지는 로봇은 네이버봇뿐이다. 222.122.194.111 - - [12/Feb/2006:17:13:58 +0900] "GET /robots.txt HTTP/1.1" 200 50 "-" "NaverBot-1.0 (NHN Corp. / +82-31-784-1989 / nhnbot@naver.com)" 222.122.194.111 - - [12/Feb/2006:17:13:59 +0900] "GET /data/doc/btc/Papers/Information_Theory?C=M&O=A HTTP/1.1" 301 397 "-" "NaverBot-1.0 (NHN Corp. / +82-31-784-1989 / nhnbot@naver.com)" 222.122.194.111 - - [12/Feb/2006:17:13:59 +0900] "GET /data/doc/btc/Papers/Information_Theory/?C=M&O=A HTTP/1.1" 200 1008 "-" "NaverBot-1.0 (NHN Corp. / +82-31-784-1989 / nhnbot@naver.com)" 더 어이없었던 점은, 저 웹로그에 표시된 nhnbot@naver.com 은 도대체 뭔지. 항의코저 메일을 보냈으나, 없는 메일주소라면서 반송되었다. 나원 참~ 이거 장난하는 것도 아니고. 로그에 적힌 메일주소는 그냥 멋있으라고 있는건가? P.S/ 지나가시던 분이 지적을 해주셨습니다, 제가 좀 경솔하게 포스팅을 했습니다. 제 서버의 설정에 대해 정확히 이해하지 못한 상태에서 글을 썼네요. 잘못된 정보를 알리게 되어서 죄송합니다. Trackback Address :: http://yong27.biohackers.net/trackback/185
|
||