精準醫學邀請演講:臨床定序技術與分子診斷-由短到長、一代到三代 (ㄧ)

前陣子被邀請去精準醫學學會的課程做分享,一開始被指定的是講三代定序,但感覺直接跳到這麼深的技術層面分享,對於聽者比較沒有意義,所以就稍微調整主題,希望讓與會的同仁可以有一個比較全面的收穫,且激起他們的興趣。

為何現在是一個基因定序百花齊放的時代

通常分享基因體學定序技術,都要由價錢的概念來講,畢竟這可以給人一個明確的感受,關於這技術是否可以跳脫如學術研究的框架,進入比較實務應用的階段。

根據美國國立衛生研究院(NIH)的數據,基因定序價格隨著時間的推移顯著下降,又上的圖表算是一張非常經典的圖,就像晶片產業我們會用摩爾定序,但在生物技術領域這塊的進步則遠遠快過摩爾定律。

在1980-2000年間,定序一個人類基因組的成本非常高昂,2001年,第一個人類基因組計畫完成,該計畫耗資約27億美元,我們可以想像在這時刻,要定序一個人類這樣的金額其實就是蓋一棟摩天大樓的費用,而且還需要費時十年以上。

2010年,隨著高通量定序技術(Next-Generation Sequencing, NGS)的推廣和應用,基因定序價格進一步降低。當時,定序一個人類基因組的成本已降至數萬美元,但此時的成本其實讓此技術是國內一線研究團隊相對可承受,但普遍研究學者是無法碰觸的。

到了2021年,基因定序價格再次大幅下降,使得定序一個人類基因組的成本已經低至1000美元以下。如今,價格進一步降低,去年(2022年),大概小於100美元就能定序一個人類的基因組,可以看出,基因定序價格的下降在很大程度上促使了這項技術的普及。隨著價格不斷降低,越來越多的人可以接觸到基因定序技術,從而推動了醫療、科研等領域的創新與發展。

定序只是技術,重要的是理解背後人類基因序列的病生理學

很多朋友在理解基因定序的技術時,可能過度專注在定序技術,而忘記他是用來捕捉底層生物分子層面的生理學,所以這邊我反而會花多一點時間分享人類基因體裡面有什麼現象,不同的特徵,其實造成某些定序基因可能無法捕捉,這時候就能建立腦中一個重要觀念:『哪些是我們看不到的,或是侷限』,因為這就是在跟民眾解釋或是理解這些資訊時重要的概念。

以林口長庚檢驗醫學部有的分子檢驗項目為例,分享這個列表的重點就是要給在座的同人一個感覺,因為不同的機構,所能提供的服務不太一樣,而這樣的限制則是每個人在自己工作場域中要去理解和因此做出調整的。另一個想分享的重點是隨者基因定序價錢降低,有的時候關鍵障礙其實是人員對於新技術的接受,以及是否有多餘的時間來適應,換句話說,未來很大機率不一定是傳統的醫學中心實際來執行比較新穎的檢驗檢查,可能開始會是外面專門的檢驗公司或是廠商來提供服務。

下面是2022年底林口長庚簡單的分子檢驗項目粗略地整理:

  • 親子鑒定| 嵌合體檢驗:短縱列重複序列(STR)
  • 胎兒檢查
    • 染色體數量異常
      • 無創產前遺傳檢驗
    • 拷貝數異常
      • 晶片式全基因體定量分析
  • 免疫分型
    • HLA高解析定序(A,B,C)、HLA-B*15:02、HLA-B27
  • 遺傳性疾病
    • 單基因位點變異
      • 乙型地中海貧血、肌力不全SGCE/DYT1/GCH1基因、涎酸酵素缺乏症NEU1、汝南氏症候群PTPN11基因檢測、急性間歇性紫質症HMBS基因檢測、APOE基因檢測
    • 短片段變異
      • 甲型地中海性貧血
    • 拷貝數變異
      • 海洋性貧血
    • 短縱列重複序列(STR)
      • 亨丁氏舞蹈、脊椎性萎縮症、小腦萎縮症、C9orf72六鹼基重複基因檢測、X染色體脆折症FMR1基因、眼咽型肌肉萎縮症(PABPN1)…
  • 複雜疾病或體質
    • 單位點變異
      • 肥胖基因檢測(MassArray)
      • 聽損基因檢測(MassArray)
      • 標準及進階型酒精代謝基因檢測(ADH1B rs1229984, ALDH2 rs671)
      • 癲癇基因檢驗套組(NGS)
  • 腫瘤
    • BRCA1/BRCA2乳癌基因定序(NGS)
    • 遺傳性大腸直腸癌30基因檢測(NGS)
    • 重點型癌症標靶藥物基因檢測(NGS)
    • 廣泛型癌症標榜藥物基因檢測(NGS)
    • 行動基因循環腫瘤DNA檢測(NGS)
    • K-RAS、EGFR、ROS1、Her2、PDGFRA、PIK3CA、ALL-RAS基因檢測(腫瘤組織)
    • MGMT甲基化程度偵測
    • 微衛星體不穩定檢測(NGS)
    • 周邊血游離DNA EGFR T790M
    • 螢光雜交ALK, 1p19 deletion, MYC, BCL2, BCL6
  • 感染症
    • 症候群病原菌檢測
      • 腦膜炎ME Panel
      • 肺炎Pneumonia Panel
    • 病毒核酸檢驗定性
      • BKV, Bordetella pertussisi, ParvoB19, Enterovirus 71 RNA, HPV16/18,12, Varcella Zoster Virus, 腸病毒、登革熱、麻疹病毒、腸病毒68型、新冠病毒、EBV DNA、Ureaplasma DNA, Pneumocystis jirovecli, HSV, hMPV RNA, HSV, 流行性感冒A,B、Mycoplasma pneumonia DNA
    • 病毒核酸檢驗定量
      • viral load: HBV, HCV, CMV
    • 細菌核酸檢驗
      • C. difficule toxin gene screen
      • 結核菌DNA, 
    • 抗藥基因檢測
      • Mycoplasma Pneumonia Macrolide resistance gene檢測

目前市面上的基因檢測服務

柯滄銘婦產科的遺傳檢驗實驗室(簡報做的時候他們網站還是舊的,現在已經改版,現代化許多),算是很老牌的,可以看出很多醫院在還沒有分生組的時候,可能都是委託相關的實驗室幫忙,慧智基因和禾馨連鎖集團則是這五年台灣很厲害的基因檢測臨床服務模式,康百事生物資訊則是目前台灣還在努力專做基因分析臨床系統的公司。

基因定序其實就是指把序列轉換成資訊

基因定序是一個過程,將DNA(去氧核糖核酸)中的核苷酸序列轉換成可以解讀的生物信息。這一過程遵循“中心法則”(Central Dogma),即信息在生物體內的傳遞過程為:DNA→RNA→蛋白質。其中,DNA中的基因信息經過轉錄過程,生成了具有相應序列的mRNA(信使RNA),接著mRNA在細胞中的核糖體上進行轉譯,形成蛋白質。雖然這個法則目前發現沒有那麼單向,可以想像成都是雙向的。

在這個過程中,DNA序列中的三個連續核苷酸組成了一個密碼子(codon),每個密碼子對應一個特定的氨基酸。氨基酸是蛋白質的基本組成單位,它們按照特定的順序排列,形成蛋白質的一維結構。在翻譯過程中,tRNA(運載RNA)會根據mRNA上的密碼子搭配相應的氨基酸,並將它們連接在一起,最終形成具有特定功能的蛋白質。

2022年才有辦法第一次取得“完整”的人類基因參考序列

雖然大家都知道第一個人類基因組參考序列公布於2000年初,但對整個人類基因組的理解和探索仍有很大空間,比如以人類基因體參考序列來說,直到2022年,telomere-to-telomere(端粒至端粒計畫)項目才成功完成了第一個完整的人類基因組定序。這一突破的實現歸功於多個因素的共同作用,其中包括三代定序技術的成熟以及新的單倍體人類細胞株的建立等。

三代定序技術,也稱為長讀長技術,使得基因組研究人員能夠一次性讀取數千至數十萬個連續的核苷酸,這對於分析複雜的基因組區域具有顯著優勢。這種技術在人類基因組的連續定序中發揮了關鍵作用,尤其是在解決高度重複區域和結構變異等難題方面。

此外,新的單被人類細胞株的建立也為telomere-to-telomere項目的成功提供了重要支持。這些細胞株來自單倍個體,具有相對較低的基因變異,從而減少了定序過程中的錯誤和不確定性,且不用處理phasing的問題。此外,新建立的細胞株還為基因組學家提供了一個統一的、高質量的研究材料,使得定序結果具有更高的可靠性和可比性。

總之,telomere-to-telomere項目成功完成第一個完整的人類基因組定序,標誌著我們在基因組科學領域邁出了重要的一步。然而,人類對基因組的認知仍處於初期階段,未來仍需在多個方面深入研究,以期揭示更多關於生命奧秘的信息。

到底人類有多少個基因呢?

從這邊最新研究可以看到,人類基因組中大約包含2萬個蛋白質編碼基因。這些基因負責編碼蛋白質,這些蛋白質在細胞和生物體的各種生命活動中發揮作用。值得一提的是,基因僅佔人類基因組的約1-2%,而大部分基因組序列是非編碼區域。這些非編碼區域被認為在基因調控、染色體結構維持以及其他細胞功能中發揮作用。儘管非編碼區域的功能尚未完全揭示,但它們在基因組研究中被認為具有重要的生物學意義,所以這邊研究裡面其實基因不止2萬,其實是六萬個基因,因為這邊包含非編碼區域的基因,可以知道數量遠遠超過蛋白質編碼基因,可見我們還有多少是不知道的。

基因變異的種類和命名

基因變異是指基因組序列中的變化,以前可能會用突變這個詞,通常會帶有一點負面,但現在反而會把變異和他對個體的影響分開,這些變化可能影響基因的功能、蛋白質結構和生物體的表型。基因變異有多種類型,常見的有單核苷酸多態性(SNP)、插入/缺失(InDels)和結構變異(SV)等。

  1. 單核苷酸多態性(SNP):SNP是指基因組中單個核苷酸的替換。它是最常見的基因變異類型,通常每隔100至300個核苷酸便有一個SNP。SNP可以分為同義變異(不改變氨基酸)和非同義變異(改變氨基酸),其中非同義變異可能對蛋白質功能產生影響。
  2. 插入/缺失(InDels):InDels是指基因組中一個或多個連續核苷酸的插入或缺失。InDels會導致序列的變化,可能影響基因的讀碼框(reading frame),從而對蛋白質的結構和功能產生影響。
  3. 結構變異(SV):結構變異是指基因組中較大片段的變化,包括重複(duplications)、缺失(deletions)、倒位(inversions)和易位(translocations)等。結構變異通常影響較大的基因組區域,可能對基因的表達和功能產生重大影響。

基因變異的命名原則通常包括以下幾個要素:基因名稱、變異類型、變異位置以及變異後的核苷酸或氨基酸。例如,對於一個位於第100個核苷酸位置的SNP,原始核苷酸為A,變異後為G,則變異可表示為:基因名稱:c.100A>G。這種表示方式有助於清晰地描述基因變異的特徵,便於研究和交流。

通常怎麼判斷一個變異的生物影響力,其中一個關鍵是其所在的位置,所以就要稍微了解一下所謂的基因結構。

人類基因結構包含多種序列元件,這些元件各自具有不同的功能,共同參與基因的轉錄、翻譯以及調控等過程。以下是一些主要的基因結構元件及其特性:

  1. 啟動子(Promoter):啟動子是位於基因上游的一段DNA序列,通常在轉錄起始點(TSS)的上游100-1000個核苷酸範圍內。啟動子的主要功能是招募RNA聚合酶,以便於基因的轉錄。啟動子序列通常包含各種核心啟動元件,如TATA盒和CAAT盒等。
  2. 內含子(Intron):內含子是指基因中不編碼蛋白質的序列區域,它們位於外顯子之間。在轉錄過程中,內含子會被刪除,生成成熟的mRNA。儘管內含子不直接參與蛋白質的編碼,但它們在基因調控、轉錄和可變剪接等方面具有重要功能。
  3. 外顯子(Exon):外顯子是指基因中編碼蛋白質的序列區域。外顯子在轉錄過程中連接在一起,形成成熟的mRNA,然後進入翻譯過程以生成蛋白質。外顯子的數量和長度在不同基因間有很大差異。
  4. 增強子(Enhancer):增強子是一段調控基因表達的DNA序列,通常位於基因上游、下游或內部。增強子通過與轉錄因子結合,影響啟動子的活性,從而調節基因的表達。增強子可以在幾千甚至幾十萬個核苷酸之外影響基因表達,並具有方向性和組織特異性。
  5. 沉默子(Silencer):沉默子是一段調控基因表達的DNA序列,與增強子相反,沉默子通過與轉錄抑制因子結合,抑制基因的表達。
  6. 3’非編碼區(3′ UTR)和5’非編碼區(5′ UTR):這些區域位於mRNA的3’端和
  7. 5’端,分別稱為3’非編碼區(3′ UTR)和5’非編碼區(5′ UTR)。它們不編碼蛋白質,但在mRNA的穩定性、轉錄後修飾和轉譯調控等方面具有重要作用。例如,一些microRNA通過與3′ UTR結合,導致mRNA的降解或轉譯抑制。
  8. 基因間區域(Intergenic regions):這些區域位於相鄰基因之間的DNA序列,它們可能包含調控元件,如增強子、沉默子等,也可能具有未知的功能。基因間區域在基因組中佔據很大比例,研究這些區域對於理解基因表達調控和基因組組織具有重要意義。
  9. 重複序列(Repetitive sequences):這些序列在基因組中重複出現,例如短串聯重複(Short Tandem Repeats, STRs)和轉座子(Transposons)等。重複序列在基因組中佔據很大比例,可能參與染色體結構的維持和基因表達調控等方面。
  10. 終止子(Terminator):終止子是指位於基因下游的一段DNA序列,通常在轉錄終止點的下游。終止子的主要功能是指示RNA聚合酶在此處停止轉錄。

所以在不同位置的變異,其實多少就會造成不同功能上的影響。另外一個很重要的觀念則是基因變異跟實際造成的表型關係,其實很有多樣性的,常常就會用下面這張圖來代表。