RNAseq: Reads counting

Han Y, Gao S, Muegge K, Zhang W, Zhou B. (2015) Advanced Applications of RNA Sequencing and Challenges. Bioinform Biol Insights 9(Suppl 1):29-46. [article]

在RNAseq資料裡面，常使用對應到某個基因序列的reads量來代表其基因表達量，當然要直接把reads數量對應成基因表現量，這邊一定要仔細考慮在定序前檢體處理的步驟都有相關，比如是否是strand-specific，這些都要列入考慮的因素！

這邊有一些工具可以計算reads counting的量，如Bedtools，給定其GFF和bam檔，其可以在特定的區段計算出counts，其內建是會計算兩個strands上有興趣區域的reads一起計算，但這能調整。

Quinlan AR, Hall IM. BEDTools: a flexible suite of utilities for comparing genomic features. Bioinformatics. 2010;26(6):841–2

另一款工具HTseq則是有把strands-specific概念在預設計算中，其只會把reads對應到特定的strands上。

Anders S, Pyl PT, Huber W. HTSeq – a Python framework to work with high- throughput sequencing data. Bioinformatics. 2015;31(2):166–9.

在R語言裡，easyRNAseq使用上簡易上手、summarizeOverlap為GenomicRanges裡頭的韓式、featureCount (Rsubread)裡頭則採用了非常有效率的chromosome hashing和feature blocking 的方式。

除了使用工具不同，計算出來的count值也會不同，所使用的gene model 同樣影響到後續的計算，尤其是在跨過junction的reads上，有論文發現在使用RefGene、Ensembl、UCSC三種版本對照序列，發現其中21958個常見基因只有16.3%的基因其算出的count相同，其中9.3%基因有大於50%的差異。

Zhao S, Zhang B. A comprehensive evaluation of ensembl, RefSeq, and UCSC annotations in the context of RNA-seq read mapping and gene quantification. BMC Genomics. 2015;16:97.

	臨床次世代定序NGS Workshop… 在使用國網中心超級電腦台灣衫建置定序分析流程(二）
	臨床次世代定序NGS Workshop… 在使用國網中心超級電腦台灣衫建置定序分析流程(一）
	Kotlin 在可擴展標記語言XML是什麼？
	Cupid.K 在 2021 臨床次世代定序實務與應用概論
	kuoYH 在 2023 生物資訊學習資源彙整

	臨床次世代定序NGS Workshop… 在使用國網中心超級電腦台灣衫建置定序分析流程(二）
	臨床次世代定序NGS Workshop… 在使用國網中心超級電腦台灣衫建置定序分析流程(一）
	Kotlin 在可擴展標記語言XML是什麼？
	Cupid.K 在 2021 臨床次世代定序實務與應用概論
	kuoYH 在 2023 生物資訊學習資源彙整

分享此文：

發表留言 取消回覆

發表留言取消回覆