文獻閱讀:RNAseq在臨床應用的可能和挑戰(下)

原始論文:Byron, S. A., Van Keuren-Jensen, K. R., Engelthaler, D. M., Carpten, J. D., & Craig, D. W. (2016). Translating RNA sequencing into clinical diagnostics: opportunities and challenges. Nature Reviews Genetics, 17(5), 257–271. doi:10.1038/nrg.2016.10

 

論文的最後,談到這些新科技如何整合進臨床之中

第一個重點就是“新的檢測(這邊指得當然就是RNAseq)”,要能變成現行臨床工作的一部份,需要符合許多特性,可以由三個層面一步步來看,分別是Analytical validity (檢測本身的效力)、Clinical validity(臨床上的檢測能力)、Clinical utility(對於最終的臨床決策的貢獻度)。

第一步:Analytical validity

相對於實驗室裡的檢測,處理的檢體都是在control condition下,所以要能讓每一次的實驗都能reproducible的技術門檻就比較低,對比於臨床簡體的複雜性,還要能在此狀況下維持檢驗的穩定性、感測極限等等,就是第一關的重要門檻,要能在有良好的檢測標準來提供檢測sensitivity、specificity的驗證,再來是每次重複的結果應該要相似的(reproducibility),不會因為微小的變數造成數值的大波動。(robustness),如前exosome的研究便是因為其容易波動而造成無法定量。

以RNAseq來看,撇開前製定序所花的不算,光後端的分析方式、參數的差異,就會造成結果有所不同,在2013年,Genetic European Variant in Disease consortium為了解決這問題設計了一組實驗來處理這些technical reproducibility和feasible的問題,收集了465個人的lymphoblastoid cell,在七個定序中心分別執行,最後總結了一些在後端上可以用來驗證定序結果的,像是GC content、fragment size、transcript length、percentage of reads mapped to annotated exon (這部分可以參考所謂的annotation QC)。除此之外,由FDA領頭的SEQC studyABRF study也有大量研究為了解決和提出相關標準。

Su, Z. et al. A comprehensive assessment of RNA-seq accuracy, reproducibility and information content by the Sequencing Quality Control Consortium. Nat. Biotechnol. 32, 903–914 (2014).

Li, S. et al. Multi-platform assessment of transcriptome profiling using RNA-seq in the ABRF next-generation sequencing study. Nat. Biotechnol. 32, 915–925 (2014).

 

第二步: Clinical validity

當檢測技術能在臨床檢體上保持者可重複性時,接下來檢測就要達成可以實際區分biological difference的區別力。

第三步: Clinical utility

當前兩部都達成後,再來要看這個檢驗的結果能如何改變治療,如同companion diagnostic等等,通常此時就需要setup 臨床的試驗,來看實際在臨床場域中的效果!

screenshot.png

 

除此之外,FDA也有針對RNAseq為主的檢測項目做出一些法規的架構,可以由此深入看美國FDA對於NGS技術延生的檢測所抱持的想法

US Department of Health & Human Services. Center for Devices and Radiological Health. FDA notification and medical device reporting for laboratory developed tests (LDTs) — draft guidance. [online]  (2014).

US Department of Health & Human Services. Center for Devices and Radiological Health. Framework for regulatory oversight of laboratory developed tests (LDTs) — draft guidance. [online]  (2014)

US Department of Health & Human Services. Optimizing FDA’ s regulatory oversight of next generation sequencing diagnostic tests — preliminary discussion paper. [online]  (2014).

Evans, B. J., Burke, W. & Jarvik, G. P. The FDA and genomic tests—getting regulation right. N. Engl. J. Med. 372, 2258–2264 (2015).

 

文獻閱讀:RNAseq在臨床應用的可能和挑戰(中)

原始論文:Byron, S. A., Van Keuren-Jensen, K. R., Engelthaler, D. M., Carpten, J. D., & Craig, D. W. (2016). Translating RNA sequencing into clinical diagnostics: opportunities and challenges. Nature Reviews Genetics, 17(5), 257–271. doi:10.1038/nrg.2016.10

文獻閱讀:RNAseq在臨床應用的可能和挑戰(中)

承襲上篇閱讀的內容,這邊談到論文的第二部分,即如何應用RNA sequencing於感染性疾病:

 可將RNAsequencing用來作為RNA-based相關病原體的診斷使用

目前臨床上重要的RNA virus如愛滋病(HIV)、伊波拉病毒(Ebola)、登革熱(Dengue)、肝炎(Hepatitis) 、流行性感冒等在醫院裡面都是使用qRT-PCR assay作為檢驗工具,這些都有可能在未來可直接用RNAsequencing來取代,除此之外,也可以用來追蹤某個疫情的爆發,像2014年的伊波拉病毒大爆發,便是使用amplicon sequencing的技術來追蹤

用來診斷傳統培養方式難以確診的細菌感染

一部份的感染疾病,其感染部位的不可性,再加上感染的細菌量少,用培養的方式通常要很久,且不一定正確,如臨床上腦膜炎的感染,確診的話會需要抽脊髓液且不一定能培養出東西,要是能從病人血液中檢驗到少許病原體的RNA便能解決,畢竟抽脊髓液本身在臨床處置上是很侵入式的,另一方面,如Mycobacterium tuberculosis的診斷用傳統方式會有問題,使用 RNAseq來提早確診外(這類細菌培養的時間都非常長,甚至幾週),也能從其transcriptome來判斷其抗藥性。

但目前來說,相對於傳統的 qt-PCR assay,使用RNAsequence在傳統的實驗中會有很大的分佈統計上的問題!

文獻閱讀:RNAseq在臨床應用的可能和挑戰(上)

原始論文:Byron, S. A., Van Keuren-Jensen, K. R., Engelthaler, D. M., Carpten, J. D., & Craig, D. W. (2016). Translating RNA sequencing into clinical diagnostics: opportunities and challenges. Nature Reviews Genetics, 17(5), 257–271. doi:10.1038/nrg.2016.10

screenshot.png

篇文章Translating RNA sequencing into clinical diagnostics: opportunities and challenges,鉅細彌遺地把RNAsequencing的應用與相關的疾病相連結,並且闡述其在臨床上的潛力,其主要分三大部分來談論RNAseq,第一部分先講利用RNAseq可以探討用來看哪些東西(轉錄變異transcript variant、non-codingRNA等),第二部份則是針對RNAseq在感染疾病的診斷和追蹤的應用,第三部份則是談論將RNAseq技術實際整合進目前的臨床情境中可能面臨的validation和法規問題。

 第一部分介紹從RNAseq可以用來看各式aberrant transcription

  • mRNA expression profile是最基本用RNAsequencing想看的,而其在臨床上實際的應用相對於DNAsequencing 可以有更多的空間,因為其可以看到動態的基因表現狀況,可用來監測、診斷疾病的狀態,如OncotypeDx 21-gene expression assay,其可以用在乳癌病患之基因檢測,用來預測癌細胞切除手術後復發的機率,或是化療及放射線治療的反應、AlloMap則是用來看心臟移植病患的急性細胞排斥,這項基因檢測服務非常完整,其臨床試驗結果還發表在NEJM上,主要使用11個基因作為signature來預測風險,收受檢體後2-3個工作天就有報告,除此之外,其他基因檢測如免疫系統的監測Adaptive Biotechnology,其主要看T-cell receptor的變異,不過也自己研發用來分析RNAseq的分析工具immunoSEQ。(雖然上述公司所發展的基因檢測商品並非直接使用RNAseq)
  • gene fusion所造成的transcripts異常,可用來區分癌細胞的subtype,不過最常見得還是在血液疾病,其中急性骨髓白血病(AML)最具有代表性,其在t(8;21)(q22;q22) translocation造成的AML1-ETO嵌合,在攝護腺癌細胞中也發現有TMPRSS2-ERG的嵌合現象,跟疾病預後相關。
  • alternative transcripts(由splicing或是structural variant造成)在發育疾病、神經退化疾病或是癌症中有角色存在,如AR-V7在頑固型攝護腺癌、EGFRvIII在glioblastoma、乳癌的BRCA1/BRCA2。
  • 特殊的RNA種類隨者技術的改善和推陳出新,開始有人研究nc-RNA或是extracelluar RNA在疾病中可用來診斷的機會。
    • extracellular RNA 是在biofluid中的胞外RNA,其被體內細胞分泌出後由extracellular vesicles 或是RNA-binding protein及lipoprotein。去量測exRNA的好處是其可以由血液中獲取(及最近很火俗稱的blood biopsy),但其lack of tissue specificity是目前的問題所在,因為所有的細胞都可能分泌出exRNA,而目前有科學家使用抽取特定組織間液的方式來解決這問題。而exRNA可以用來檢測或是追蹤癌症進展,ExoDx Lung 是今天2016年一月發表的商業基因檢測商品,其可以由血液檢體中檢測肺癌病人是否有EML4-ALK fusion transcripts或是T790M。

第二部分則介紹將RNAseq使用在感染疾病的追蹤、診斷上,如RNA-virus相關的疾病登革熱、A肝、D肝、SARS等等,在感染疾病的追蹤上則可以利用RNAseq來做metagenomic的應用,看是哪種type的感染或是其可能的傳播路徑。

第三部份則是介紹實際將RNAseq導入臨床應用,撇開本身實驗及分析RNAseq結果的困難度外,最重要的是相關法規,如執行RNAseq的醫院實驗室要怎麼管理和通過驗證,都算有其難度。

如何找尋oncogenic mutation

閱讀Genetics: From Genes to Genomes, 5th edition 5th Edition by Leland H. Hartwell (Author), Michael L. Goldberg (Author), Janice A. Fischer (Author), Leroy Hood (Author), Charles F. Aquadro (Author)

如同上一篇所言,細胞癌化其實有兩類型的突變:oncogenes和tumor-suppressor genes,剛好是從相反的角度影響細胞的功能,大部分的細胞都是累積不同類的突變,慢慢轉變成癌細胞的,這篇來討論一下,科學家是如何找尋oncogenic mutation的呢?是哪種突變造成proto-oncogenes轉變成oncogenes的呢?oncogenes的突變是如何影響細胞癌化的?

目前找尋到oncogenes的實驗設計主要有兩種:

第一種是利用tumor virus,利用retrovirus將特定的cDNA嵌入目標的基因體中,再來研究其對細胞的生理影響,比如將可能的proto-oncogenes基因序列送入宿主基因體中,或是將想要表達的proto-oncogen或oncogen序列放入病毒基因體中enhancer或promoter的下游區段,使其在宿主中表達,另一種方式則是將病毒這段enhancer或是promoter的區段嵌入宿主可能的proto-oncogen或是oncogene的序列上游,觀察這些變化對細胞的影響,藉此來辨認oncogenes的正確序列位置。

另一種方式則是使用transformation assay,將癌細胞的DNA分離出來加到正常細胞株中,使正常細胞吸收那些癌細胞的DNA序列,看哪些正常細胞會因此影響,在看其是被哪些癌細胞的基因變段所影響藉此來尋找oncogenes,Alu sequence就是因此被找到的!

以下為三種目前被發現的oncogens:

Ras:其點突變造成其一直停留在GTP-actived form

c-Abl:在chronic myelogenous leukemia中被發現染色體9和染色體22上的c-Abl和bcr兩個基因互相交換,因此產生fusion gene,此fusion gene轉譯出的蛋白質為一種protein tyrosin kinase,但其不受調控

Her2:其本為human epidermal growth factor receptor 2,突變後變成over-expression 的狀態,不需要有growth factor的存在就能被激活

兩類主要癌化突變:oncogenes和tumor-suppressor genes

閱讀Genetics: From Genes to Genomes, 5th edition 5th Edition by Leland H. Hartwell (Author), Michael L. Goldberg (Author), Janice A. Fischer (Author), Leroy Hood (Author), Charles F. Aquadro (Author)

突變是如何造成細胞癌化的(一)

oncogenes和tumor-suppressor genes為兩類最主要造成細胞癌化的兩種突變基因類型

簡單來說,癌症基因在這先定義為造成細胞不受控制演變成癌細胞之突變的alleles,而這類的可以分成兩類:oncogenes、tumor-suppressor genes。oncogenes為突變的alleles,其主要是“顯性”地刺激癌細胞生長,在diploid的狀態下,單一alleles突變其實就可以造成細胞展現cancer-related phenotypes,其為gain-of-function mutation.而tumor-suppressor genes則是“隱性地”會使細胞癌化,為loss-of-function mutation,以汽車的踏板來譬喻,oncogenes是汽車的加油踏板出現問題,另一方面,tumor-suppressor genes則是汽車的煞車踏板出現問題。

基因的長度是否會影響RNAseq中的表現差異分析呢?

論文閱讀:Detecting differentially expressed genes by smoothing effect of gene length on variance estimation

關於RNAseq Normaization更進一步閱讀

表現差異分析(Differentially Expression Analysis)是RNAseq實驗很重要的目的之一,因為我們想了解各種狀態間基因表現的差異!但目前大部分用來做DE analysis的演算法有一個問題,便是傾向於將較長的基因辨識為有表現差異的基因,而比較不容易將長度短的基因辨識為有表現差異的。

這篇研究認為這演算法的偏差,是來自於其計算過程中沒有將gene length對於reads count的variance estimation考慮進去,所以想提出一種改進過的方法LenSeq,將基因的長度smoothing,以達到讓有表現的短片段基因能被辨識出來!

原本科學家都認為RNAseq可以unbiased的用來比較基因的表現量,但實際上定序出來的reads是正比於此transcripts的長度,且定序深度也跟reads的總處相關,

換句話說,在資料前處理的normalization需要考慮進去這個bias:reads count 正比transcripts length,有人會借用microarrary data所常使用的quantile normalization,但其實這個問題在microarrary的設計中不會遇到,所以這標準化的分析並沒有考慮進去這偏差。

目前第一步用來表準化transcripts表現量的數值為RPKM(reads per kilo base per million mapped reads)=(read counts  X 10^9)/( gene length X library size)或是後來的RPKM。可以用一個簡單的例子來思考:

Reads count for gene
Total Library Size
Library 1
800, 800, 800, 800, 800, 800, 800, 800, 800, 7800
15000
Library 2
1000, 1000, 1000, 1000, 1000, 1000, 1000, 1000, 1000, 6000
15000

當這兩個library size一樣的時候,會發現上面十個基因都是DE genes, 但實際上是不合理的,所以單純的使用library size表準化是不夠的。

後來的DESeq和edgeR,則有更進一步的方式來進行標準化,他們的假設建立在大多數的基因表現是沒有Deffierential Expression的,edgeR有工具可以trimmed mean of M-value其會將read counts較高的數值去掉,剩下的再來計算兩個要比較的library之weighted mean of log ratio ,而DESeq則是使用scaling factor來標準化,先計算每個基因在不同lanes間的geometric means,取得每個reads count對應到其geometric means的ratio,在使用這群數值的mean 來代表scaling factor,最後在應用這數值來標準化兩個library。本質上這樣的演算法是將read counts過大或是過小的transcripts濾掉,從新調整資料的centrality。

小結論,仔細思考RNAseq的normalization步驟是很重要的,其影響到downstream analysis

Bullard JH, Purdom E, Hansen KD, Dudoit S, Evaluation of statistical methods for normalization and differential expression in MRNA-Seq experiments, BMC Bioinfor- matics 11(1):94, 2010(被引用673次)

留一些關鍵字待查:

RNAseq followed Poisson distribution

Robinson MD, Smyth GK, Moderated statistical tests for assessing diFFerences in tag abundance, Bioinformatics 23(21):2881–2887, 2007.(被引用356次)

Negative binomial distribution

Whitaker L, On the Poisson law of small numbers, Biometrika 10(4):36–71, 1914(被引用65次)

Fusion genes是什麼?

閱讀自Reproducible, Scalable Fusion Gene Detection from RNA-Seq.Arsenijevic V1, Davis-Dusenbery BN2.

screenshot.png

在1960年代,便在chronic myelogenous leukemia的病人身上發現BCR-ABL1 fusion genes的發生(第22對染色體 和 第 9對染色體),而最近因為sequencing的定序進步,幾乎所有分型的癌細胞上面都多少可以找到fusion genes的蹤跡,也懷疑這些fusiongene是否有driven 這些癌症的角色。

Fusion genes可由兩種方式來分類,第一種根據其嵌合基因的位置,兩個位於不同染色體的基因嵌合在一起為(interchromosomal), BCR-ABL1 fusion gene的機制便是屬於這一類的,或是fusion genes來自同一個染色體上(interachromosomal),像是造成攝護腺癌症的TMPRSS2-ERG fusion gene(發生在百分之五十的攝護腺癌),另一種功能上來看,則是嵌合的位置在regulatory region,影響其基因的表現量,不產生新蛋白質產物,或是發生在coding region,造成新的蛋白質產物發生。

但為何在癌細胞會產生fusion gene呢?是由什麼樣的機制造成fusion gene呢?目前一種觀察發現這些fusion gene所發生的chromosomal rearrangement的區域其有copy number transitions 和 高度表現量,是否是這樣的原因讓這樣的fusion能有selective advantage而繼續存在於細胞中呢?

另外有論文說可能是因在double strand 分開後DNA repair機制被改變,造成chromosomal translocation的機率上升!

RNAseq: Normalization

Han Y, Gao S, Muegge K, Zhang W, Zhou B. (2015) Advanced Applications of RNA Sequencing and Challenges. Bioinform Biol Insights 9(Suppl 1):29-46. [article]

計算好基因的表達量,之後的data normalization其實是很重要的一環,這一步驟要考慮的細節很多,像是transcripts size、GC content、sequencing depth、sequencing error rate、insert size。

在評估各種標準化的方式,可以使用measurement error model來評估其標準化的效力。

目前有很多標準化的方式,像是quantile normalization,這方法在處理microarray資料上很有效,在RNAseq中能提高data quality,即使是low amount的RNA。

在R語言中的EDASeq,其先使用within-lane normalization再來between-lane normalization,可以有效降低GC-content所造成的問題

Lowess normalization的方法在microRNA 的資料處理蠻有效的。

目前在處理RNAseq資料上的normalization依舊需要有更好的方法被發展出來。

進一步閱讀:基因的長度是否會影響RNAseq中的表現差異分析呢?

RNAseq: Reads counting

Han Y, Gao S, Muegge K, Zhang W, Zhou B. (2015) Advanced Applications of RNA Sequencing and Challenges. Bioinform Biol Insights 9(Suppl 1):29-46. [article]

在RNAseq資料裡面,常使用對應到某個基因序列的reads量來代表其基因表達量,當然要直接把reads數量對應成基因表現量,這邊一定要仔細考慮在定序前檢體處理的步驟都有相關,比如是否是strand-specific,這些都要列入考慮的因素!

這邊有一些工具可以計算reads counting的量,如Bedtools,給定其GFF和bam檔,其可以在特定的區段計算出counts,其內建是會計算兩個strands上有興趣區域的reads一起計算,但這能調整。

另一款工具HTseq則是有把strands-specific概念在預設計算中,其只會把reads對應到特定的strands上。


在R語言裡,easyRNAseq使用上簡易上手、summarizeOverlap為GenomicRanges裡頭的韓式、featureCount (Rsubread)裡頭則採用了非常有效率的chromosome hashing和feature blocking 的方式。

除了使用工具不同,計算出來的count值也會不同,所使用的gene model 同樣影響到後續的計算,尤其是在跨過junction的reads上,有論文發現在使用RefGene、Ensembl、UCSC三種版本對照序列,發現其中21958個常見基因只有16.3%的基因其算出的count相同,其中9.3%基因有大於50%的差異。

RNAseq: Reads mapping

Han Y, Gao S, Muegge K, Zhang W, Zhou B. (2015) Advanced Applications of RNA Sequencing and Challenges. Bioinform Biol Insights 9(Suppl 1):29-46. [article]

在將RNAseq 定序出來的reads經過preprocessing後,接下來的步驟便是要將其組成的contigs對應到參考序列上,如何將短片段的序列對應到正確的位置一直以來都是生物資訊領域重要的問題!目前已經有很多不錯的軟體能處理這類問題,像是ELAND、SOAP、SOAP2、MAQ、Bowtie、BWA、ZOOM、STAR。這裡有一篇比較這些工具的論文可以參考看看。

Bao S, Jiang R, Kwan W, Wang B, Ma X, Song YQ. Evaluation of next-generation sequencing software in mapping and assembly. J Hum Genet. 2011;56(6):406–14

這些工具在處理一般序列區域的功能都相當不錯,但遇到像是poly(A) tail或是exon-intron splicing junction就必須要針對splicing處理的工具像是BLAT、TopHat、GEM、MapSplice。

在對應回參考序列另一個問題就是序列的polymorphism,這會造成multiple-aligned reads的問題,在較短的reads於序列重複性較高的區域這問題會更嚴重,而在一些重複性較小的reads上,可以利用附近的reads來解決這類型的問題。

Cloonan N, Forrest AR, Kolle G, et al. Stem cell transcriptome profiling via massive-scale mRNA sequencing. Nat Methods. 2008;5(7):613–9

Mortazavi A, Williams BA, McCue K, Schaeffer L, Wold B. Mapping and quantifying mammalian transcriptomes by RNA-Seq. Nat Methods. 2008;5(7):621–8

另一種解決方式就是將paired-end reads 延升成200-500bp的長度,在進行mapping。

Holt RA, Jones SJ. The new paradigm of flow cell sequencing. Genome Res. 2008; 18(6):839–46.
Hillier LW, Marth GT, Quinlan AR, et al. Whole-genome sequencing and variant discovery in C. elegans. Nat Methods. 2008;5(2):183–8.
Campbell PJ, Stephens PJ, Pleasance ED, et al. Identification of somatically acquired rearrangements in cancer using genome-wide massively parallel paired- end sequencing. Nat Genet. 2008;40(6):722–9