之前有討論過在拿到定序資料時,一開始的FASTQC處理,這步驟可以用來品管一些關於“序列品質“的問題,可能樣品放過久等等,而alignment後的bam檔,因為有了序列片段為應到reference上的資訊,此時就可以利用這樣的資訊來進一步看是否有一些實驗設計上所造成的bias,在此篇有稍微介紹一下annotation quality control的概念和工具,這邊介紹RNA-SeQC tools的使用。
RNA-SeQC 是由Broad institute的研究團隊所開發的,主要是David S Deluca 專寫,為一款Java程式。其輸出會有html的介面和分析圖表,會有total and duplicate read count、mapping rate、read pairing stat、exon/intron/intergenic rate、strand specificity quantification、normalization by sownsampling、provide RPKM、variation of coverage、3’/5′ coverage rate、gaps in coverage report、stratification of gene expression、average transcript coverage、alignment mismatch rate per base、fragment size distribution等等,提供非常全面的資訊。
以下為使用的程式碼範例:
使用這程式的前處理主要有fastq檔比需要先使用Picard 來產生sequence dictionary在fasta同一個資料夾中,bam黨必須要先使用samtools index過後,且bam檔的header必須要有@RG的註明,這部分也可以使用Picard的AddorreplaceReadGroup.jar來解決,另外事先bam檔案需要sorting過,根據chr1~chr22、chrX、 chrY、 chrM的順序處理,這部分可使用Picard ReorderSam.jar其可以搭配samtools將特定的reads除掉,像是chromosome patch等等。
對「RNA-SeQC :annotation quality control tool」的一則回應