癌症研究資料的雲端服務NCI Genomic Data Commons

thumbnail image GDC Resources

在癌症研究領域中,研究人員已經開始意識到資料分享的重要性,尤其是臨床試驗的相關資訊、伴隨臨床試驗的相關分子、基因層面的資訊,NCI Genomic Data Commons便是為了解決這個問題而產生的工具,主要是由芝加哥大學、Ontario Institute for Cancer ResearchLeidos Biomedical Research,在NCI補助下,所建置的共享癌症研究資料的雲端服務,他們收錄了所有在NCI補助下的專案資料,包含TCGA和TARGET program。裡面統整了raw sequencing資料、copy-number alterations, gene-expression changes。

這個雲端服務還開放了應用程式接口(API),可以讓使用者直接用程式來串接這裡面的資料。藉由共享這些癌症相關的分子、基因層面的資料,可以讓癌症治療相關領域越來越精準。希望藉此來產生一些molecular taxonomy of cancer that has clinical utility. 假如要找出這些cancer driver mutation gene在2%的病人身上的話,需要分析超過100000組癌症組織。從這些基因變異在病人的盛行率分佈來看,很多突變都是罕見的alleles。比如BRAF V600E在melanoma上、1%肺腺癌有ROS1基因的過度表現。所以各個研究組織共享癌症資料便顯得很重要。除了共享外,一套好的系統設計用來提高共享的效率,和降低成本也是很重要的,像是光TCGA的資料就有petabyte的量級,總共有超過575000個檔案,假如用每秒10Gbit-per-second的網路,可能要下載超過3週,如何在原始資料共享外,加上一層分析應用,可以降低直接下載和重複分析的費用,所以NCI Genomic Data Commons有提供多總常見的分析方法,提高所謂的data harmonization。

未來NCI還堆動了一個計畫叫做NIH Precision Medicine Initiative Cohort program,希望讓參與臨床試驗的病患能主動給予更多他們的相關資訊,讓整體收集的資料更完整。

cBioPortal

NCI Genomic Data Commons的教學文件非常仔細和清楚

閱讀參考
Love, A. H. (2016). Toward a Shared Vision for Cancer Genomic Data. The New England Journal of Medicine, 375(1), 1109–1112. http://doi.org/10.1056/NEJMp1002530

發表留言