GEO 데이터 일괄 다운로드

Bioinformatist - 2013년 6월 27일 1:02:26 오후

GEO(Gene Expression Omnibus)는 NCBI에서 운영하는 유전자 발현 프로파일 공개 데이터베이스이다. 최근에는 어레이(Array) 뿐 아니라 서열기반 자료(RNA-seq)도 등록을 받고 있다. 전사체를 분석한다면 꼭 참고해야 할 레퍼런스 데이터베이스.

GEO의 데이터 구성은 다음과 같다.

Platform: 발현 분석에 사용한 유전자 칩 정보. 상용칩을 사용했다면 대부분 이미 등록되어 있다. 커스텀칩을 사용한 경우도 적절히 이용할 수 있다.
Series: 특정 실험목적에 맞게 여러개의 칩 분석 결과를 모아 놓은 것.
Sample: Series 에 속하는 한장의 칩 분석 결과.

특정 전사체 연구를 위해서는 관련 생물종의 전체 GEO 데이터가 필요한 경우가 많은데, 어느 지인께서 일괄로 다운로드 받을 수 있는 방법을 문의하셔서, 일괄 다운로드 스크립트를 만들어 보았다. GEO 웹사이트의 검색 인터페이스에 검색결과를 CSV로 내려받는 기능이 있어서 따로 웹로봇같은 것이 필요하진 않았다. 아래 스크립트는 검색결과 CSV를 입력으로 받아, 해당 Series 첨부파일(Matrix 정보와 raw 데이터 파일)과 Platform 프로브(probe) 정보를 자동 다운로드 받는다. 별도의 메타정보가 필요할 경우, get_XXX_data 메쏘드를 적절히 이용할 수 있다.

네트워크 환경이 불안할 경우, urllib2.urlopen 함수가 접속할 수 없다며 멈추는 문제가 있어, 30초 후 무한 재 요청하도록 약간 수정했다. 자칫 서버로 부터 접속차단될 수도 있으니 조심히 써야 함. (이런 경우 스크립트를 어떻게 구성하는 것이 서버에게 미안하지 않은지 궁금)