[實戰紀錄]整理基因變異Variant Call Format檔案:使用NCBI API+bedtools+VCFtools+Shell scripts

這邊分享一下最近一個清洗資料的流程,做生物資訊的雜活其中一個重要的事情就是把來自各方的資料整合在一起,許多細節是必須把手弄髒才知道的!

問題

最近幫忙解決的這個問題是科內用來出次世代定序報告系統的某個資料表,自從2016年的助理離職,就沒有人能幫忙更新,這也是臨床檢驗科室的問題,老店員工資深,很難有人願意重新投入學習寫程式清資料等等,老闆也不一定知道這箇中的重要,不過相信這是可以慢慢改變的。

這個資料表暫稱Hotsopt.bed,是用來幫忙次世代定序之Panel在定序後的生物資訊流程中作為資料註解的資料表,表格長得如下面這樣:

這是用來幫助次世代分析流程中,當遇到定序品質不好的區域,能把此區域已知具有臨床意義的變異點給吐出來。整個資料表很單純,第一欄是染色體位置、第二和第三欄是這個位置的開始和結束、第四欄是跟這位置相關的臨床位點ID(舊版本是用rs ID,我接手後應該會改成clinvar ID,比較貼近需求)、第五欄則是綜合這個位置的變異資料以及變異起始前一位的序列,最後一欄則是這區域為在哪個target panel的Amplicon。這個表格目前只想放在clinvar DB上面已經住解為Pathogenic和Likely Pathogenic的位點。

該串接的資料庫: NCBI clinvar, dbSNP

從上面的問題,可以知道工作重點是:建立能定期下載特定基因列表的clinvar註釋,然後在看這些位點為在哪個panel的amplicon,以及此位點的序列變化和從參考人類基因組抓出變異位點起始位置前一位的核酸序列,最後整合成hotspot的格式。

因此需要串接的資料庫為

  • NCBI: clinvar, dbSNP

第一步:使用NCBI Entrez Direct檢索基因列表最新在clinvar的位點資訊

相信這邊的做法有蠻多的,這邊因為前陣子因為想幫科內建立血庫分子資料庫,所以摸了一下NCBI 的Entrez Direct,就順勢使用這個工具,Entrez Direct 是美國國家生物技術資訊中心(The National Center for Biotechnology Information, NCBI)所提供的一個命令行工具,讓人可以直接使用Unix terminal的方式來針對NCBI內的各個資料庫。基本上就是下面那個下拉表單所提供的所有資料庫都可以調用。(超級佛心的,幾個代碼就可以調用全世界最大的生物資料庫QQ)

這個Entrez Direct(EDirect)可以有幾個安裝方式,可以由Anaconda,也可以直接下載後安裝。 (之前有幾篇文章介紹這個命令行工具 Pubmed E-utilities API 使用規範, 使用python來調用pubmed API快速整理文獻, Pubmed API介紹) ,安裝完Entrez Direct後,他會有幾個命令行的函數是可以用的:

  • esearch
  • elink
  • efilter
  • efetch
  • xtract
  • einfo
  • epost
  • nquire

藉由組合上面這幾個指令,便能擁有調用NCBI資料的技能,非常實用!且相關的說明文檔有越來越好,相對於幾年前。

這邊所使用的關鍵語法是

for gene in $gene_list
do
   echo download $gene
   echo ==========================
   echo "                         "
esearch -db clinvar -query $gene[gene]|
efetch -format docsum|
xtract -pattern DocumentSummary -def "-"\
       -element Id object_type title\
       -block variation_set -subset variation -element measure_id cdna_change\
       -block variation_set -subset assembly_set -if assembly_name -equals "GRCh37" -def "-" -element chr start stop \
       -block clinical_significance -def "-" -element description last_valuated \
       -block genes -subset gene -if symbol -equals "$gene" -def "-" -element symbol GeneID strand >> gene_clinvar.txt

sleep 2s 
   echo =============== down =======

done

上面的代碼主要是使用三個指令:esearch、efetch和xtract,先用esearch去查詢NCBI內對於單一個基因的最新資料,在使用efetch來下載,最後使用xtract來把資料做前處理來整理成比較。這邊需要花一些的坑就是去調整xtract的pattern,看我們需要什麼資料做後續的處理,然後針對這些資料來做pattern的設計。

每一行都是在這個基因區域中,相關的變異位點資訊,包含其編碼、變異種類、變異細節、其臨床註釋之意義等等。

接者就可以把這個資料去往下做更新。

第二步:將從NCBI下載的資料進行清洗,只留下位點具有Pathogenic或Likely Pathogenic標注的

拿到這些資訊後,接者便是應用各種技巧來進行整合。(資料處理的坑就是這樣,不過也是有趣的地方,每次都會多學到一點點不同的代碼寫法和狀況)

下一步,我們先用R來把這個資料讀進去後,只留下Pathogenic和Likely pathogenic的位點資訊,聽起來簡單,但下面是真實情況的資料:

上面是看各個原始資料中,臨床位點的注釋,會發現很多奇怪的狀況,這邊就是一些清資料的活,確認這些不一致的來源,並且將其處理成乾淨的版本,去掉許多注釋可能沒有完成的位點資訊,最後只留下相關的位點。這邊可以善用dplyr的強大功能搭配字串處理的stringr,我這邊則是使用mutate搭配case_when來做處理。

第三步:利用clinvar ID, allele ID來彙整資訊

取得新更新的特定基因列表中的變異位點相關的ID資訊後,可以以此為參考,來跟不同資料來做收集。尋這些位點分別是在Ion的哪個 Amplicom上、過濾clinvar VCF檔案取得ref和alt資料、使用位置資訊來從reference genome fasta來取得前一位置的位點序列。

這邊使用clinvar ID, allele ID和其相關的位點來取得下面三個資料

  • 取得每個變異位點在Amplicon的位置上 | 使用bedtools
  • 取得每個變異位點前一個序列的核酸資料|使用seqkit和seqtk
  • 取得每個變異位點的實際資訊|使用VCFtools

這邊可以借助Bedtools 來做兩組不同位點資訊的比較,比如位點是否位在特定位置區域上等的分析。

比如這邊我需要做的就是每個位點實際位在的Amplicon位置,這邊就必須要拿位點資料和Amplicon資料來做處理。

bedtools intesect -wb\
    -a CRC_clinvarBed -b CRC_amplicon_bed|\
cut -f 1,2,3,4,5,6,10,14 

這邊代碼的意思是去看每一個-a後面的檔案其在-b後面的amplicon範圍,並且將兩個資料合再一起,並且最後使用bash的指定cut,只留下特定想要的欄位供後續的使用。像是下方的示意圖:

另一部分,想要取得特定位置的序列資訊,則可以使用seqkit這個工具,他可以吃bed檔案格式來吐出相關的序列資訊,也可以使用seqkit來清理從NCBI所下載。這邊可以直接去NCBI的ftp下載參考序列組,其資料夾長得如下:

下載後,可以看到其實際fasta檔案有非常多細節,有297個片段(第一次抓參考基因組,通常都以為只有24個染色體片段,實際上每個染色體除了主要資料外,還有很多“補丁”的片段)。

seqkit是一個可以用來取代seqtk的分析命令行工具,可以用來處理和分析fasta和fastq的檔案格式,這樣的的代碼和sed來做清洗,最後只留下23對染色體的參考序列,並且使用seqkit來取變異點前一位置的序列。下面的代碼也有用到seqtk,用來提取特定的染色體序列出來。

P.S: 這邊有一個要小心的坑,使用seqkit subseq來擷取序列時,用bed檔或是直接下指令,兩者的索引會是不同的。

seqkit seq -n GRCh37_latest_genomic.fna.gz | grep "GRCh37.p13 Primary Assembly"| grep "NC" > primaryAssemble.lst

# only use primary assembly hg19 reference genome
seqtk subseq GRCh37_latest_genomic.fna.gz primaryAssemble.lst > onlychr_GRCh37_latest_genomic.fna

# rename the hg19 reference header and preprocess of the title
sed '/^>/d' file.fa | wc -l
sed 's/NC_.* Homo sapiens //' draft_o_onlychr_GRCh37_latest_genomic.fna > draft_1_onlychr_GRCh37_latest_genomic.fna

sed 's/, GRCh37.p13 Primary Assembly//' draft_1_onlychr_GRCh37_latest_genomic.fna > draft_2_onlychr_GRCh37_latest_genomic.fna

# get the reference sequence from bed file
seqkit subseq --bed $CRCRefAnchorBed draft_2_onlychr_GRCh37_latest_genomic.fna|\
    sed 'N;s/\n/\t/' |\
    sed 's/^>//' |\
    sed 's/\.//' |\
    sed 's/://' > $CRCrefAnchor_file

# get the reference sequence from bed file

seqkit subseq --bed $EpilepsyRefAnchorBed draft_2_onlychr_GRCh37_latest_genomic.fna |\
    sed 'N;s/\n/\t/' |\
    sed 's/^>//' |\
    sed 's/\.//' |\
    sed 's/://' > $EpilepsyAnchor_file

接者,為了取得每個VCF檔案裡面的序列變異細節,會使用VCFtools,這邊也是踩了一個軟體的坑,在VCFtools裡面的snps篩選,所使用的其實是clinvar ID而非snpID,這邊真的是頗坑的。

vcftools --gzvcf $vcf_file --snps $Epilepsy_VCF_Bed --recode --recode-INFO-all --out 20210717_epilepsy_annotation_VCF

這個代碼的參數意思:–gzvcf是輸入壓縮過的vcf檔案,–snps則是以提供每行一個clinvarID的列表,用來篩選落在這標單的位點資訊。

第三部:把全部資料彙整成最終檔案

最後的部分可以在R裡面處理,比較high level的資料處理在比較小的資料集中使用R相對方便,因為前面三個檔案都是以tab間隔之檔案,所以讀進去後可以在R裡面彙整成最終的檔案格式。可以用到dplyr裡面的rename、left_join、filter、mutate來做最終的匯聚。

outputCRC_clinvarBED %>%
    dplyr::rename('chr'=V1, 'start'=V2, 'end'=V3, 'clinVarID'=V4, 'alleleID'=V5, 'dbSNP'=V6, 'Amplicon'=V7, 'Gene'=V8) %>%
    dplyr::left_join(., CRC.annotation.VCF, by='clinVarID') %>%
    dplyr::mutate(Anchor_pos=paste0(chr, '_', as.character(start-1))) %>%
    dplyr::left_join(., CRC.annotate.ref.anchorfile, by='Anchor_pos') %>%
    dplyr::filter(!is.na(REF)) %>% dplyr::filter(!is.na(AHCHOR)) %>%
    dplyr::mutate(Info=past0("REF=", REF, ";OBS=",ALT, ";ANCHOR=", ANCHOR))

清資料的過程蠻多小細節的,真的是每次都是全新的坑,只是越清會越知道什麼坑是小坑,什麼坑是大坑,以及比較熟悉各種基因資料的格式比如bed format, VCF format和各個資料庫中的關聯性。

閱讀分享:生技前峰們對未來的看法

太久沒寫網誌了,這半年咻咻咻的就過惹,沈靜在打造實驗室的忙碌中,之後慢慢分享打造一個具有高通量能力之合成生物學實驗室以及居家實驗室的進展!

這邊來稍微摘錄一下六月發表在Nature Biotechnology的文章:Voices of biotech leaders 。這篇文章邀請了以下這些在生物科技發展前沿的領導者,談論一下他們對於未來產業的看法,有大學教授、生技創辦人、基金會管理人、創投、大型研究機構負責人等等,雖然實際瀏覽和查閱一下,總合來講還是只邀請了小部分的領導者,裡頭的比爾蓋茲和臉書創辦人老婆Priscilla Chan本身就是著名的名人,另外,George Churchm John Cumbers, Emily LeProust, Neri Oxman, Aviv Regev, J.Craig Venter等人之前就在關注,剩下的其他也是第一次認識,每個人其實只說幾句話,老實說與其閱讀內容,不然看看他們所屬的組織和google一下事蹟,會獲得比較多有趣的資訊,整體來說,都在表達生物科技的進步搭配資訊和運算的升級,將大大在各個層面改變人類的生活,雖然困然依舊很多,不是來自科技,而是來自於社會結構、法律、資源分布不均等等。:

  • Abasi Ene Abong, 54Gene, Nigeria
  • Katrine Bosley, Arrakis Therapeutics, USA
  • Charlotte Casebourn, Theolytics, UK
  • Priscilla Chan, Chan Zuckerberg Initiative, USA
  • Janice Chen, Mammoth Bioscience, USA
  • Michael Chen, PureTech Health, USA
  • George Church, Professor at Harvard University, USA
  • John Cumbers, SynBioBeta, USA
  • Tomas de Wouters, PharmaBiome, Switzerland
  • Heather Dewey-Hagborg, REFRESH collective, USA
  • Xavier Duporter, Eligo Bioscience, France
  • Arturo Elizondo, Clara Food, USA
  • Jeremy Farrar, Wellcome Trust, UK
  • Bill Gates, Bill & Melinda Gates Foundation, USA
  • Francesco Gatto, Elypta, Sweden
  • Sebastian Giwa, Elevian, USA
  • Jernej Godec, Atlas Venture, USA
  • Silvia Gold, Mundo Sano, Argentina
  • Emily LeProust, Twist Bioscience, USA
  • Jeantine Lunshof, Prof at University of Groningen, Netherlands
  • Eddie Martucci, Akili International, USA
  • Michelle McMurray Health, Biotechnology Innovation Organization, USA
  • Jason Mellad, Start Codon, UK
  • Veronika Oudova, S-Biomedics, Belgium
  • Neri Oxman, MIT Media Lab, USA
  • Aviv Regev, Genentech, USA
  • Sarah Richardson, MicroByre, USA
  • Christopher Thomas Scott, Baylor College of Medicine, USA
  • Jake Sherkow, University of illinois, USA
  • Leah Sibener, 3T Biosciences, USA
  • Teresa Tarrago, Exheus, Spain
  • Sharon Terry, Genetic Alliance, USA
  • J.Craig Venter, J. Craig Venter Institute, USA
  • Spin Wang , TetraScience, USA
  • Sajith Wickramasekara, Benchling, USA
  • Hakim Yadi, Closed Loop Medicine, UK
  • Luhan Yang, Qihan Biotechnology, China
  • Bowen Zhao, QuantiHealth, China

How to grow(almost) everything: 學習筆記-Week 1.a

最近發現在麻省理工大學媒體實驗室(MIT Media Lab)的課程How to grow(almost) everything又重啟了,剛好最近在學習做合成生物學領域的實驗,所以感覺是個不錯的學習路引,一慣地野蠻學習。

How to grow(almost) everything其實是另一門How to make almost everything(假如對How to make almost everything有興趣,可參考這篇介紹文章)的生物版本課程,由哈佛大學George Church、MIT的Jacobson以及David S. Kong所開設的。幾年前也有嘗試這個課程,但那時候的理解力還不夠,且自造能力等於零,如今大概比較成熟,有基礎的自造和實驗能力和背景知識。

第一週的課程,算是簡單的開場,以及討論實驗安全和倫理的問題,而George Church教授則是分享了整個領域目前在做的十個具有改變人們生活型態潛力的方向,話說,三年前閱讀完George Church的書Regenesis,便對其對當代影響真的頗為佩服。

便宜的DNA讀取和合成

合成生物學,簡單來說,其實是奠基在過往的分子生物學基礎上,更向前的去定義這個領域,相對於過去已探索生物體現象為主,改為利用生物體現象來創造如工程工具的技術,能將生物技術結合工程思維和快速迭代,主要歸功於我們對於基因定序(讀)和基因合成(寫)的技術進步,由下面Goerge Church的簡報可以看到,整個技術的進步,是比莫爾定律還誇張的。首先可以由下圖發現,定序基因也就是讀取生物內的資訊成本快速下降。

Graph: Sequencing Cost Per Genome
from NIH, Sequencing Human Genome Cost

另一方面,基因合成的價格雖然沒有持續下降,但目前大約200bp以下,每個bp在美金0.07美元左右。這算是支持整個合成生物學向前的一個基本支持,而目前我們已有利用奈米孔洞蛋白的技術來改善合成和定序的方法,相信未來合成和定序整個基因組會更加的便宜和快速。

使用機器學習來做蛋白質設計

隨者定序和合成基因的成本降低,各種高通量的實驗設計變成為可能,隨之而來的巨量資料,便能利用來做近一步的預測,如今火紅的機器學習領域便可以用來設計蛋白質。下面兩個研究便是很好的典範轉移,將生物實驗從經驗性探索轉成資料導引的科研方式。

雖然在George Church的簡報裡面提到他實驗室的科學家Pierce J. Ogden和Eric D. Kelsic在2019年的發表,將機器學習應用於基因療法中,探討AAV病毒其外鞘蛋白序列要如何更有效率的去做突變和測試,這個方法學後來變成一間公司Dyno Therapeutics,導入於基因療法中。

from Science  29 Nov 2019:Vol. 366, Issue 6469, pp. 1139-1143

另外,我自己補充之前閱讀到的趨勢,在Carnegie Mellon University最近新成立的自動化科學Automation Science 的主任Robert F Murphy 也提到用機器學習的方法學搭配自動化高通量實驗技術。前陣子看到一篇文章也頗有趣的,利用一組數據102個可能的測試組合來做無細胞表達系統的最佳化。

Fig. 2
from Borkowski, O., Koch, M., Zettor, A. et al. Large scale active-learning-guided exploration for in vitro protein production optimization. Nat Commun 11, 1872 (2020). https://doi.org/10.1038/s41467-020-15798-5

使用DNA來當作儲存的工具

去氧核醣核酸,也就是DNA,本身以A、T、C、G四種組合,其實本質上,就是可以轉換成四進位的方式來儲存原本二進制的資料,比如影片、照片等等資訊,最早直接使用DNA來儲存“資料”的概念在1988年左右,由Joe Davis藝術家就有提到,但當時應該是處在“概念”階段,而在2012年左右George Church教授的實驗室也提出使用DNA作為資料儲存的方式,將一張照片轉換成四進制後儲存成ATCG的編碼,裡面也提及DNA作為儲存工具,其在資料密度及儲存穩定上是相當不錯的,這也歸功於定序和合成成本的下降,雖然目前合成的價錢相對來說較高。

from Church, George M., Yuan Gao, and Sriram Kosuri. 2012. “Next-Generation Digital Information Storage in DNA.” Science 337 (6102): 1628.

也可以聽聽華大基因的podcast天方燁談:未來用什麼儲存資料 在2021年2月2號的這集,也簡單地談談用DNA做儲存的好處和近期發展,裡頭提到的哥倫比亞大學Harris Wang教授在這方面的努力,他本身研究生時就在George Chruch實驗室開發出MAGE方法學。

重新編碼基因:抵禦病毒感染

記得之前中國科學家賀建奎在2018年愛滋寶寶基因編輯事件中,其實就讓大家正視人類已經具有如此威力的技術,它實際上就是將人類的CCR5基因修改,這個基因是愛滋病毒進入人體的細胞表面受體,雖然這技術開啟很多可能,但也延伸許多未知的問題,比如這樣修改雖然能避免愛滋病感染,但會不會造成其他問題,畢竟CCR5是身體內本來就有功能的受體蛋白,另外,修改CCR5的過程多多少少有可能會不小心修改到其他基因,這些都是很多科學研究需要進一步探索的。

在2016年George Church團隊的一篇研究,目前生物體將三個RNA代碼對應相應的蛋白質生產或是相關指定,所以三碼代表自然界有4*4*4種可能,也就是64個相對應代碼,實際上,很多代碼是產生一樣的氨基酸的,基於這個思路,他們團隊思考重新編碼大腸桿菌,將64個氨基酸對應的代碼,縮減成57個,看是否會有因此對於大腸桿菌的一些正常生存能力造成影響。

from Ostrov, Nili, Matthieu Landon, Marc Guell, Gleb Kuznetsov, Jun Teramoto, Natalie Cervantes, Minerva Zhou, et al. 2016. “Design, Synthesis, and Testing toward a 57-Codon Genome.” Science 353 (6301): 819–22

這樣的實驗在以前是看起非常不可能的,大腸桿菌的基因組有4百60萬個鹼基,所以這樣大規模的編輯得力於如今許多技術的發展。近一步來說,這些方法學在醫學上可以發展細胞和基因療法,比如這五年來發展飛快的CART療法,將病人免疫T細胞收集出來後,進行基因工程,在注射回病人的療法,讓這些T細胞能便是這些癌症細胞。

figure4
from Larson, R.C., Maus, M.V. Recent advances and discoveries in the mechanisms and functions of CAR T cells. Nat Rev Cancer (2021). https://doi.org/10.1038/s41568-020-00323-z

重新調控皮膚細胞轉化成大腦細胞

前面提到的大都以基因層面的編輯,但一個人體,同樣的基因體,有的細胞變成皮膚細胞,有的則變成大腦細胞,這些就是在調控層次的變化,雖然細胞調控牽涉到的機制非常複雜,但轉錄因子是其中具有重要角色的,藉由調控這些轉錄因子的表達,便能將細胞重新改變。在這篇2020年的研究中,科學家變利用漫病毒表現載體(Lentiviral expression vector)來調控誘發性幹細胞(hiPSCs),看其會造成分化上有何影響。

figure1
from Ng, A.H.M., Khoshakhlagh, P., Rojo Arias, J.E. et al. A comprehensive library of human transcription factors for cell fate engineering. Nat Biotechnol (2020). https://doi.org/10.1038/s41587-020-0742-6

改造器官用於移植

器官移植在目前來說,技術已經臻於成熟,但苦於人類器官的來源非常短缺,從器官移植資料庫可以看出,能提供器官的捐贈者相對於需求者,兩者間有巨大的需求,那從跟人類基因體較相近的動物身上取得器官,可能是另一種解法,但其中有許多要克服的困難。

from Sykes, Megan, and David H. Sachs. 2019. “Transplanting Organs from Pigs to Humans.” Science Immunology 4 (41). https://doi.org/10.1126/sciimmunol.aau6298.

跨物種的移植(Xenotransplantation)要面對複雜的免疫排斥作用、栓塞和凝血功能之影響、組織相容性蛋白分型、豬內源性逆轉錄蛋白(Porcine endogenous retrovirus )等等,所以利用基因編輯技術來修改器官上面的受體,可以一步步慢慢解決這些困難,其中目前做得蠻好的是將豬內源性逆轉蛋白序列從豬器官中提除。

器官強化

抗老化及逆齡科學

老化是個非常複雜的過程,有非常多個理論在描述所謂老化的過程,目前認為由兩個機制來影響,一個是細胞內建的凋亡機制(Programming age)和細胞損傷造成,可以把他分成九個分子層面的因素:(1). 基因組不穩定 、(2). 端粒耗損(telomere attrition)、(3). 表觀調控改變、(4). 蛋白質代謝功能散失、(5). 代謝調控失衡、(6). 粒線體功能異常、(7). 細胞複製減緩(cellular senescence)、(8). 幹細胞耗盡(stem cell exhaustion)、(9). 細胞內通訊改變。

from Rebelo-Marques, Alexandre, Adriana De Sousa Lages, Renato Andrade, Carlos Fontes Ribeiro, Anabela Mota-Pinto, Francisco Carrilho, and João Espregueira-Mendes. 2018. “Aging Hallmarks: The Benefits of Physical Exercise.” Frontiers in Endocrinology 9 (May): 258.

當可以把老化解構成不同分子層面的事件後,便能藉由調整生物分子路徑,來達成所謂的逆齡。在2019年,George Church的團隊發表一篇論文,使用腺病毒來做基因療法,針對三個基因: FGF21、TGFbetaR2、HFTC3,這三個基因已知跟許多人類慢性病相關,如糖尿病、關節炎和腎臟疾病,他們使用老鼠疾病模型來做驗證,觀察到在心臟衰竭的小鼠模型中,觀察到了58%的心臟功能提升,在αSMA表現量有38%降低以及腎臟髓質細胞萎縮下降約75%。目前也成立了一間公司Rejuvenatebio,先以寵物為標的在做發展。

 

資訊來源:

定序和合成基因的價錢變化

How to grow almost everything, week 1 material, MIT media lab

美國NIH定序人類基因組的價錢
https://www.genome.gov/about-genomics/fact-sheets/Sequencing-Human-Genome-cost

機器學習在蛋白質設計上的應用

Ogden, Pierce J., Eric D. Kelsic, Sam Sinai, and George M. Church. 2019. “Comprehensive AAV Capsid Fitness Landscape Reveals a Viral Gene and Enables Machine-Guided Design.” Science 366 (6469): 1139–43.

Borkowski, O., Koch, M., Zettor, A. et al. Large scale active-learning-guided exploration for in vitro protein production optimization. Nat Commun 11, 1872 (2020). https://doi.org/10.1038/s41467-020-15798-5

將DNA用在資料儲存

Church, George M., Yuan Gao, and Sriram Kosuri. 2012. “Next-Generation Digital Information Storage in DNA.” Science 337 (6102): 1628.

重新編碼基因

Ostrov, Nili, Matthieu Landon, Marc Guell, Gleb Kuznetsov, Jun Teramoto, Natalie Cervantes, Minerva Zhou, et al. 2016. “Design, Synthesis, and Testing toward a 57-Codon Genome.” Science 353 (6301): 819–22.

基因和細胞療法

Liu X, Zhang Y, Cheng C, et al. CRISPR-Cas9-mediated multiplex gene editing in CAR-T cells. Cell Res. 2017;27(1):154-157. doi:10.1038/cr.2016.142

Larson, R.C., Maus, M.V. Recent advances and discoveries in the mechanisms and functions of CAR T cells. Nat Rev Cancer (2021). https://doi.org/10.1038/s41568-020-00323-z

重新調控將皮膚細胞改造成大腦

Ng, A.H.M., Khoshakhlagh, P., Rojo Arias, J.E. et al. A comprehensive library of human transcription factors for cell fate engineering. Nat Biotechnol (2020). https://doi.org/10.1038/s41587-020-0742-6

改造移植用器官

Ways to reduce the kidney shortage, New York Times, 2014

Niu, Dong, Hong-Jiang Wei, Lin Lin, Haydy George, Tao Wang, I-Hsiu Lee, Hong-Ye Zhao, et al. 2017. “Inactivation of Porcine Endogenous Retrovirus in Pigs Using CRISPR-Cas9.” Science 357 (6357): 1303–7.

Yang, Luhan, Marc Güell, Dong Niu, Haydy George, Emal Lesha, Dennis Grishin, John Aach, et al. 2015. “Genome-Wide Inactivation of Porcine Endogenous Retroviruses (PERVs).” Science 350 (6264): 1101–4.

Sykes, Megan, and David H. Sachs. 2019. “Transplanting Organs from Pigs to Humans.” Science Immunology 4 (41). https://doi.org/10.1126/sciimmunol.aau6298.

Yang, Siyoung, Noriyuki Fujikado, Dmitriy Kolodin, Christophe Benoist, and Diane Mathis. 2015. “Immune Tolerance. Regulatory T Cells Generated Early in Life Play a Distinct Role in Maintaining Self-Tolerance.” Science 348 (6234): 589–94.

抗老化

Khosla, Sundeep, Joshua N. Farr, Tamara Tchkonia, and James L. Kirkland. 2020. “The Role of Cellular Senescence in Ageing and Endocrine Disease.” Nature Reviews. Endocrinology 16 (5): 263–75.

Kruempel, Joseph C. P., Marshall B. Howington, and Scott F. Leiser. 2019. “Computational Tools for Geroscience.” Translational Medicine of Aging 3 (November): 132–43.

Magalhães, João Pedro de, and Olivier Toussaint. 2004. “GenAge: A Genomic and Proteomic Network Map of Human Ageing.” FEBS Letters 571 (1-3): 243–47.

Melzer, David, Luke C. Pilling, and Luigi Ferrucci. 2020. “The Genetics of Human Ageing.” Nature Reviews. Genetics 21 (2): 88–101.

Partridge, Linda, Matias Fuentealba, and Brian K. Kennedy. 2020. “The Quest to Slow Ageing through Drug Discovery.” Nature Reviews. Drug Discovery 19 (8): 513–32.

Rebelo-Marques, Alexandre, Adriana De Sousa Lages, Renato Andrade, Carlos Fontes Ribeiro, Anabela Mota-Pinto, Francisco Carrilho, and João Espregueira-Mendes. 2018. “Aging Hallmarks: The Benefits of Physical Exercise.” Frontiers in Endocrinology 9 (May): 258.

Rijt, Sanne van der, Marte Molenaars, Rebecca L. McIntyre, Georges E. Janssens, and Riekelt H. Houtkooper. 2020. “Integrating the Hallmarks of Aging Throughout the Tree of Life: A Focus on Mitochondrial Dysfunction.” Frontiers in Cell and Developmental Biology 8 (November): 594416.

Tacutu, Robi, Daniel Thornton, Emily Johnson, Arie Budovsky, Diogo Barardo, Thomas Craig, Eugene Diana, et al. 2018. “Human Ageing Genomic Resources: New and Updated Databases.” Nucleic Acids Research 46 (D1): D1083–90.

保羅。格雷厄姆Paul Graham: 如何思考

這篇是分享閱讀Paul Graham十一月的文章How to Think For Yourself。沒聽過Paul Graham的人也可以趁機了解一下,他算是矽谷創業圈的老前輩,創辦的Y Combinator是目前很重要的一個美國新創孵育器。他本身會把自己的小散文貼在一個簡單的網站來分享,文字都相當的淺顯和易懂,看得出來是非常厲害的寫手。

這篇文章How to Think For Yourself,其實想表達的東西很簡單,如何成為一個獨立思考的人,以及怎樣的特質能保持獨立思考的特性(Independent-mindedness),文中很簡單地提到三個重要的特點,且彼此可以互相加強:

  • 對於事實的吹毛球疵 fastidiousness about truth
  • 不易被說服該如何想 resistance to being told what to think
  • 好奇心 curiosity

保持獨立思考這件事,不是在唱高調,而是很多職業生存的基本要求。科學家,假如都跟同儕想一樣的事情,那麼不會有什麼新的產出; 投資家,假如都跟市場想的一模一樣,那麼能賺取的利潤會相當有限,甚至進一步對於創業家來說,你認為有趣的點子在當時大家也都認同的話,鐵定已經有公司創立了,最好是你的想法對大多數人來說都是不熟悉的,甚至覺得不太對,但你有自己獨到的看法,那麼就會有機會。

獨立思維(Indenpendent-mindedness)和從眾思維(Conventional-mindedness)

傳統的教育其實本質上是不鼓勵獨立思維的人,因為往往使用譬如分數來最為排序跟評判的工具,因此在傳統教育中,從小一路領先的人往往會自覺得是所謂具備獨立思維的人,但實際上往往相反,所以有從眾思維的人往往覺得自己是具有獨立思維的人,反之,具有獨立思維的人其實常常怕自己其實是具有從眾思維的,也因此種狀況在職場上會觀察到鄧寧-克魯格效應(Dunning-Kruger effect),這個效應是在描述所謂的“傻瓜認為自己是明智的,而聰明的人認為自己是個傻瓜”。

如何讓你自己具有獨立思維?

雖然作者認為獨立思維比較偏向於是天生的特質,但不代表是不能去加強的,比如不去注意當前主流的想法是什麼,雖然不去關注主流的想法和資訊會讓人感到痛苦的事情,再來則是結交具有獨立思維的人。當你察覺到一個環境讓你有重回到學生時代的感受,那麼有可能就是處在一個從眾思維的團體之中(不過,可能要看是怎樣的高中吧xd),可以盡量去接觸各式各樣的人,或是地方,甚至去旅行到一個不一樣的地方與當地人交流,都是一個不錯的方式,簡單一點的話,可以閱讀歷史,從中取得一些不同的觀點來看這世界。

YC合夥人賈里德.傅利曼: 未來十年,生技創業將跟創辦軟體公司一樣容易

不知道是否是閱讀太多跟儀器開源和生物自造的文章,慢慢的也感受到很多生物科技的進入門檻,比想像中的低,最近閱讀到一篇在YC合夥人賈里德.傅利曼(Jared Friedman)的文章How Biotech Startup Funding Will Change in the Next 10 Years也從某種程度在驗證這個想法。

這篇文章的作者賈里德.傅利曼(Jared Friedman)也是之前YC投資的創辦人,目前則是在YC擔任合夥人,幫助創業者來解決他們遇到的問題。

生技領域的資金運作變化

這篇文章的起頭是在描述創投在投資生技業以及大部分生技公司募資和創立的變化,雖然現今的生技創業之模式,為所謂的資本主導模式,也就是資本方有了幾個覺得可行的商業想法,便去找信任的職業經理人或是在創投的駐點創業家來運營,通常都需要大約億元以上的起始資金來啟動公司,如今在YC所投資的生技公司,慢慢有了轉變,新的創業架構有了不一樣的方式,可以用大概300萬左右的初始成本便能進行產品的開發。

生技領域的開發門檻降低

而能有這樣的轉變,主要是越來越多的公司開始提供生技公司的研發配套服務,生技公司不需要在初始就投入太多的設備成本,即能開始發展,比如像是Science Exchange平台,提供各式各樣的生醫研發之外包服務,QuartzHappiLabs兩間公司想要幫忙解決最耗費人力和心思的實驗室器材和試劑管理,也有如Opentron這樣的公司提供相對便宜的自動化移液設備,甚至有一間公司Strateos,讓生物學家變成直接使用他們的雲端平台,便能讓自動化機台來做相關的測試和開發。

Cloud Robotic Lab, Picture from Strateos website

除了讓開發成本變得更低外,法規、專利和臨床試驗是生醫領域創業的另外一個門檻,但如今像是Cognition IP將專利佈局的成本變得很低,Enzyme這間公司則是幫你處理遞交FDA相關申請的雲端文件系統。

YC的扶植案例: ShasqiAthelas

在2015年的時候,一位美國醫師Jose Mejia Oneto離開骨科住院醫師訓練,想創辦一間想發展精準化療藥物的公司,他加入YC的時候,連成功的動物模型試驗都沒有,利用YC的啟動資金,他才開始執行老鼠的乳癌模型來驗證他的想法是否可行,另外一間公司Athelas,創辦人則是還在大學時就開始發展,其用大約120萬元的資金便建立第一個可行的原型,在YC的時候,便執行了一個約350人的試驗,取得相當不錯的結果,如今這個產品已經獲得FDA的核可。

逐步募資相對於一次性募資

相對於過去,如今的啟動成本相對低廉,在YC也看到越來越多的生技公司創辦人是博士後或是研究生,而非傳統的創投背景人士來創辦,如今生技創業領域的創投也開始轉變其投資模式,可以預期現在才是生技領域投資的初始階段,未來相關的資本熱錢會越來越多。

延伸

賈里德.傅利曼(Jared Friedman)在其2019年在YC Startup school時給予一個演講 Advice for hard-tech and biotech founders,內容也相當精采,鼓勵人一開始便選擇一個困難進入的題目,其中也有談論其想法和相關的建議。

2020美國癌症研究協會演講: Informatics Technologies for Cancer Research

這個演講系列由聖路易斯華盛頓大學的Obi L. Griffith教授做主席來規劃,有四個子演講組成,線上演講的連結在此。腫瘤研究者該如何面對巨量高通量的定序資料呢?本演講主要在談論有甚麼資訊處理工具可以用來幫助臨床上對於這些資料的管理、分析、視覺化和判讀,另外,也會介紹一些基本的觀念、標準、指引。最後,也會分享在臨床判讀腫瘤圖片和腫瘤影像在生物標誌發展的方式。除了Obi Griffith教授,還有約翰霍普金斯的計算機學家Rachel Karchin哈佛大學放射學教授Andrey Fedorov華盛頓聖路易斯大學Daniel Marcus

將定序資料導入臨床腫瘤科使用,最大的障礙就是如何去解讀變異,或是去判斷哪個變異是有臨床意義的,到現在這始終是個"百萬美元"的問題,下面這張圖便是來自於Griffith教授在2014年的文章:Organizing knowledge to enable personalization of medicine in cancer,裡面談論到他覺得可能的解法,便是建立一個開源群眾註解和判讀的知識庫。

Good BM, Ainscough BJ, McMichael JF, Su AI, Griffith OL. Organizing knowledge to enable personalization of medicine in cancer. Genome Biol. 2014;15(8):438. Published 2014 Aug 27. doi:10.1186/s13059-014-0438-7

Standardized and genome-wide clinical interpretation of complex genotypes for cancer precision medicine

第一個演講便是Obi L. Griffith教授介紹其發展的線上資料庫CIViC,也算是他2014年提出的概念的實踐版本,一個可以用來做腫瘤變異判讀的知識庫,其終極目地為用來做腫瘤精準治療所使用,其代碼開源且提供API串接,且期望建立一套良好的註解規則讓不同層級的人可以為其做貢獻。

CIViC is a community knowledgebase for expert crowdsourcing the clinical interpretation of variants in cancer. 2017. Nature Genetics

Informatics tools for high-throughput analysis of cancer mutations

第二個部分是由約翰霍普金斯的計算機學家Rachel Karchin發展的工具Open CRAVAT,相對於前一部分想要使用專家和社群的方式來解決基因變異註解的問題,這個工具相對於CIVIC,比較著重在串接各種資料庫和用計算生物學的方法給予變異一些排序和解釋。

Integrated Informatics Analysis of Cancer-Related Variants. 2020. JCO Clin Cancer Inform

這個系列也分享了一些目前基因資訊處理和共享的指引,主要是由美國醫學遺傳學暨基因體學學會(ACMG)提到的

Standards and Guidelines for the Interpretation of Sequence Variants: A Joint Consensus Recommendation of the American College of Medical Genetics and Genomics and the Association for Molecular Pathology. 2015

Standards and Guidelines for the Interpretation and Reporting of Sequence Variants in Cancer. 2017

Standard operating procedure for curation and clinical interpretation of variants in cancer. 2019

The FAIR Guiding Principles for scientific data management and stewardship. 2016

科學寫作:Writing in the Science (一)

這一系列主要有鑒於最近發現我的寫作能力實在是有很多提升空間,所以想再鍛鍊寫作肌肉,這系列主要來自於Coursera: Writing in the Science 的上課心得和筆記。

起手式當然是重新加強一下觀念,重溫一些原則,如何往一個更好的寫手邁進:

  • 閱讀、刻意去關注文章是如何寫的、並且模仿看看
  • 每日或是定期的寫作
  • 請拋棄堆砌文字的壞習慣
  • 先談談(找好朋友喝咖啡的意思)你做的研究,再下手來撰寫
  • 不要等待靈感再來寫作
  • 接受寫作對於任何人來說都是很困難的
  • 不段重寫,沒有人第一次就能寫好,大多數人留太少時間再重寫,都想一次到位

聽完這些,就一定要列一下自己目前看過很會寫作的作者,當作觀摩目標,下面這些是我自己回億起來,閱讀他們的文字很令人愉悅和開心,有點會上癮的那種滋味!

  • John M.Chamber
  • Hadley Wickham
  • Jales J. Berman
  • Stephan Wolfram
  • Uri Alon
  • Bernhard Palsson
  • Leroy Hood
  • Bradley Efron
  • Trevor Hastie
  • Tim O’Reily

收集幾本跟寫作相關的好書:

這邊有幾個範例,來體會一下如何把字句更加地讓人易理解,下面是一個節錄自The Journal of Clinical Oncology的開頭:

Adoptive cell transfer (ACT) immunotherapy is based on the ex vivo selection of tumor-reactive lymphocytes, and their activation and numerical expression before reinfusion to the autologous tumor-bearing host

仔細思考上面這個段落,會發現一個學術論文很喜愛的模式,過度使用“名詞”(clunky nouns),假如要讓字串更簡單俐落,就必須要減少這類使用,以“動詞”主導論述。

These findings imply that the rates of ascorbate radical production and its recycling via dehydroascorbate reductase to replenish the ascorbate pool are equivalent at the lower irradiance, but not equivalent at higher irradiance with the rate of ascorbate radical production exceeding its recycling back to ascorbate"

修改過後如下,整體的可讀性增加,更容易理解且順暢。

These findings imply that, at low irradiation, ascorbate radicals are produced and recycled at the same rate, but at high irradiation, they are produced faster than they can be recycled back to ascorbate

如何寫的簡白(Effective Writing)的三個要點

  • 減少不必要且意義模糊的用字原則(Cut the clutter)
  • 主動語氣
  • 使用洽當的動詞

盡可能減少多餘的字,你永遠都會驚訝於能使用更少的字來表達同樣的道理

範例一

This paper provides a review of the basic tenets of cancer biology study design, using as examples studies that illustrate the methodologic challenges or that demonstrate successful solutions to the difficulties inherent in biology result.

This paper provides a review of the basic tenets of cancer biology study design, using as examples studies that illustrate the methodologic challenges or that demonstrate successful solutions to the difficulties inherent in biology result. [高手改]

範例二

As it is well known, increased athletic activity has been related to a profile of lower cardiovascular risk, lower blood pressure levels, and improved muscular and cardio-respiratory performance

Increased athletic activity is known to lower cardiovascular risk and pressure levels, and improved muscular and cardio-respiratory performance[土炮練習]

Increased athletic activity is associated with lower cardiovascular risk, lower blood pressure, and improved fitness. [高手改的]

範例三

The experimental demonstration is the first of its kind and is a proof of principle for the concept of laser driven particle acceleration in a structure loaded vacuum

The experiments demonstrate the proof of concept that laser-driven particle can accelerate in the structure loaded vacuum. [土炮練習]

The experiment provides the first of principle of laser-driven particle acceleration in a structure-loaded vacuum.[高手改]

範例四

Brain injury incidence shows two peak periods in almost all reports: rates are the highest in young people and the elderly

Brain injury incidence peaks in young and the elderly [高手改]

更開放、多元的科學自造時代

如何創造一個願意探索、分享和動手實作的社群,是一個很有意義也充滿挑戰的事情,而這樣的社群在未來對於孕育新的人才和技術是不可或缺的,如今很多有趣的進展和技術都是藉由不同領域的人互相切磋討論而展開的。如中研院物理所江宏仁老師創辦的科學Make臉書群組,是台灣很有活力的一個科研社群,以顯微鏡觀察為主,從開發手機顯微鏡的套件,搭配群眾捐款的方式,算是可自給自足的生態圈,在其中感受到江老師對其之後的發展有一定的想像,非常期待。而單就討論生物科技相關議題的社群,如The Investigator Taiwan,也聚集一群熱愛科學的朋友。

跨越學術的藩籬,興趣驅動的群體

這時代對於領域的劃分越來越薄弱,只要你對於某件事情有興趣,一定的耕耘下其實都有機會能參與其中,免費的學習資源和世界各地的同好分享非常豐沛,其實只要能上網,對英文閱讀的能力尚可,基本上都能取得相關想了解的資訊,除此之外,社會環境的改變,普遍更好的社經條件也讓部分人有多餘的心力可以投入在滿足自己的好奇心之活動,很多科學儀器和實驗的門檻不段降低,不論是花費和其中的操作細節都能較以前用較少成本取得。

圖片來自Science雜誌的文章 Community science: Not just a hobby

在2019年8月刊登在科學雜誌的文章:社區科學-不只是興趣,裡面提到以麻省理工學院多媒體實驗室主辦的Global Community Bio Summit ,描述這一個新興的趨勢,把以往只鎖在學術殿堂裡的生物技術、基因工程、合成生物學打開成全民可參與的一個舞台,麻省理工學院社群生命科學技術計畫的負責人David Kong描述這個希望能進一步打造全球生命科學熱愛者社群的努力,這個社群其實本身就是非常多樣性,其中有DIY Biologist、Community Biologist、Biohackers、Biomakers等等,每年一次的會議將這群人聚集一起互相分享,這邊是他們2019年的議程,可以由此一窺他們都在討論些甚麼。

David Kong在2017年在Nature Biotechnology發表了一篇Open-source, community-driven microfluidics with Metafluidics的文章,其創立了一個微流體設計分享平台Metafluidics,也描述了一個框架,在不同層次裡分享相關資訊以及已知的平台:

figure1
Figure 1 from Nature Biotechnology 35, 523 – 529(2017)

越來越多的跡象顯示這類創新的機會慢慢從純粹軟體、電機轉移到生物科技,這個以往認為一定要很大資本才能有所發揮的地方。隨著許多基本分子生物學研究需要的儀器都有開源版本後,這個門檻正在逐漸降低,比如OpenPCRPocketPCR,相信可見的將來會有更多的人尋者自己的好奇心,用更開放的心胸來探索這世界以及與其他人分享!

書籍閱讀:基因泰克-生物科技的起源(Genentech: The Beginnings of Biotech)

基因泰克:生物科技的起源(Genentech: The Beginnings of Biotech)

這本書發表於2012年,其內容在講基因泰克公司的故事,這間公司在生醫領域幾乎沒有人不知道,時至如今已經是行業裡的巨頭,很難想像他們在1976年左右是如何從零開始的。而這本書撰寫的就是從Robert A. Swanson和Herbert Boyer教授兩人公司到上市這段時間的胼手便足,閱讀的時候很難想像那時候的氛圍,從今天的角度會認為頂尖大學教授創辦生技公司很正面(在台灣可能還沒有那麼正面,往往都會從自肥的角度來看),但實際上在30幾年前對於科學家們還很難接受這件事。

主題分享:腦膜炎和腦炎的病原菌診斷新工具和未來方向(一)

這主題是幫林長檢驗科晨會所準備的資料,剛好科內要進新的診斷工具,順便瀏覽了相關資料,這部分主要是由王信堯醫師所提供指導的內容。

New Tool and Future possibility in Pathogen Identification of Meningitis and Encephalitis

中樞神經的感染性疾病中,腦膜炎(Meningitis)和腦炎(Encephalitis)算是最常見且可能致命的疾病,尤其病人往往會有意識和神經學的變化,這部分常常是臨床上的困難案例。

簡介

腦膜炎(Meningitis),是蜘蛛腦膜下腔(Subarachnoid space)發生感染或是發炎,可能由細菌、病毒、黴菌、寄生蟲、阿米巴原蟲、非感染性原因造成,其中細菌性感染是最常見的導因。病人通常伴隨者發燒、頸部疼痛和僵硬表現,可能合併其他神經學症狀,雖然可以由病人的年齡和危險因子來猜測可能導因,但絕對的診斷必須依靠腦脊髓液的檢驗,而傳統上會同時做脊髓液的體液分析和培養,另外假如腦脊髓液培養呈陰性的話,則診斷為無菌性腦膜炎(Aseptic Meningitis),通常有較好的預後。

腦炎(Encephalitis),指腦實質的發炎,可能由感染或是非感染造成,最常見的原因是病毒性感染,病人會伴隨者意識的改變,因其大腦的功能受到相關的影響。

臨床上在還沒有腦脊髓液培養結果的時候,通常可以用病人的危險因子來使用經驗性抗生素。

另外,除了腦脊隨液的培養外,腦脊隨液的分析則是可以提供腦脊隨液中是否有病原菌的資訊,這些資訊包含腦脊隨液的壓力、白血球量、葡萄糖、蛋白質。

目前依靠單純的腦脊隨液培養會有許多的限制,像是:

  • 腦脊隨液中的培養往往耗時,且敏感性沒有想像中高,尤其是在病人使用過抗生素後,更難從腦脊隨液中培養中病原菌。
  • 另外,像是腦脊隨液中的格蘭氏染色等等,但假如在腦脊髓液中的箘量不多時,這類方法就不容易驗出來

所以如今的趨勢開始找尋新的檢驗方式,漸漸傾向於採取分子檢驗的技術,直接去檢驗腦脊髓液中是否有各式各樣病原菌的核酸,也就是去檢測這些細菌、病毒、黴菌等DNA是否有出現在病人的腦脊髓液中。最近林口長庚即將開始提供新的檢驗技術,可以在更短的時間內提供第一線人員有關病人檢體內疑似病原體的東西。

The BioFire®FilmArray®

腦膜炎、腦炎套組

簡單來說,BioFire FilmArray是一個整合性的病原菌檢測套組,裡頭可以將檢體進行PCR、並且同時做多種病原菌的DNA/RNA的檢測,看是否特定病原箘的遺傳物質出現在檢體中。整組看起來像下面這樣:

The Biofire FilmArray Device Appearance

Poritz, Mark A., Anne J. Blaschke, Carrie L. Byington, Lindsay Meyers, Kody Nilsson, David E. Jones, Stephanie A. Thatcher, et al. 2011. “FilmArray, an Automated Nested Multiplex PCR System for Multi-Pathogen Detection: Development and Application to Respiratory Tract Infection.” PloS One 6 (10): e26047.

這篇文章有這個檢測產品的技術細節:

其藉由流道來讓檢體的檢驗流程整個自動化,且能同時看許多病原菌。

其實這技術已經很久了,就是Multiplex Nested PCR,只是如何整合成一個儀器,就是一門學問了,其中採用了流道的設計思維,將多個反應穿接在一起,但又能保有各自獨立的反應空間。


從原本的一天以上的檢驗時間,藉由這套工具,可以縮短知道結果的時間,且其操作簡單,只要將檢體上機就可以了,只花大概5分鐘以內的時間,相對於傳統微生物培養的操作流程非常多。相信這類型的設計在未來會越來越流行,幫助檢驗人員可以用更少的時間達成更多的事情。

BioFire ME在腦膜炎和腦炎的相關論文發表:

Messacar K, et al. Potential clinical impact of the filmarray meningitis encephalitis panel in children with suspected central nervous system infections. Diagn Microbiol Infect Dis. 2016 Sep;86(1):118-20.