Experiments never fail s2

실험에 실패란 없다 블로그 시즌 2

손상된 압축 FASTQ 파일의 손상부분 제거하기

Bioinformatist - 2013년 4월 22일 6:51:18 오후

대용량 NGS 파일들을 다루다보면, 파일이 손상된 경우가 간혹 존재한다. 전송시 끊어졌을 수 도 있고, 디스크 손상인 경우도 있다. 아무래도 보통 몇십기가가 넘어가는 큰 파일이다 보니 자주 생기는 일인 것 같다. 이때 원본 파일을 백업해 두지 않았다면 저 큰 파일을 써먹을 수가 없는데, 파일내용 중 이용 가능한 부분만이라도 써먹고 싶다면 어떻게 해야할까?

FASTQ 포맷의 경우, 다음의 방법처럼 진행했는데, 혹시라도 더 바람직한 방법을 아시는 분의 코맨트가 있으면 좋겠다.

broken.fastq.gz 파일이 있다고 할 때, 다음 명령은 손상 부분 전까지 압축 해제한다.

$ gunzip -c broken.fastq.gz > broken.fastq

이후, 생성된 broken.fastq 파일을 다음의 스크립트로 정상부분만 추려낸다.

파일 중 손상된 부분이 일부 있을 때 그 부분을 중심으로 FASTQ 형식이 깨지길래, 형식에 맞지 않는 것들을 제외하는 방식이다. 이후 잘 변환됐는지 확인하려면 CLC Assembly Cell의 sequence_info과 같은 프로그램을 이용하면 좋다.


Posted by Hyungyong Kim (yong27)

태그(들): FASTQ, NGS, gist, gzip, python, repair


comments powered by Disqus

« 매력적인 도시 샌프란시스코

미국에서 운전하기 »