Cytoscape 3.5.1最新版本,文檔大幅升級

screenshot.png

Cytoscape這個開源工具做生物網絡視覺化的最好幫手,之前有稍微介紹一下,最近在2017/4月版本再度升級,從3.4.x邁進到3.5.x,新增像是ID轉換網絡合併功能,對於我來說,最驚豔的是文檔的升級,記得當初看cytoscape原生文檔來學習的時候,有點小痛苦,且那時候只有2.0版本的,目前升級後的文檔寫得很流暢,且搭配更多的截圖,另外,最棒的就是新增四個使用Cytoscape app的章節,這部分可以讓功力大增,分別是下面四章:
1. WikiPathway
2. Extend Biological Process with regulatory interactions (WikiPathways-App, NetworkAnalyzer, PathExplorer, CyTargetLinker)
3. Simple clustering with clusterMaker2 (clusterMaker2 0.95)
4. Over-representation analysis with Cytoscape ( clusterMaker2 0.95, setsApp 2.1.0, BiNGO 3.0.3, and ClueGO 2.2.5.)

蛋白質交互(Protein-Protein Interaction)作用資料是怎麼來的?

screenshot.png近年來因為各式技術的進步,越來越多的蛋白體學資料,可以用來探討許多蛋白質層面的分子互動,而這些研究對於我們理解生物體內的機制很重要。那到底這類的蛋白分子間交互作用的關係資料是怎麼來的呢?

這類的資料來源通常分成兩類:1. 計算機預測(computational) 2. 實驗(experimental)
雖然使用計算機預測而來的資料常常會讓實驗科學家敬謝不敏,但這類資訊反而可以補足我們在實驗資料較少的領域或是生物體。

這邊分享常見用來取得蛋白質交互作用的方法:
1. Yeast two hybrid
screenshot.png

Yeast two-hybrid的方法是目前最常用來做蛋白質交互作用的方法,Y2H是一種complementation assay,其偵測蛋白質有無交互的機制主要是使用一組轉錄因子,其分成BD(DNA-binding domain)和AD(DNA-activation domain),分別跟兩個有興趣研究的蛋白質結合,一個為bait(x),另一個為prey(Y)。當兩個蛋白質有交互作用的話,就會轉譯出reporter gene。

優點:
– 快速
– 便宜
– 可大量
– 為in vivo system下的環境
缺點:
– 可能由yeast的蛋白質分別橋接跟兩個蛋白質作用,而造成假陽性
– 兩個蛋白質可能原本不在同一個細胞的區域
– 兩個蛋白質可能無法在yeast中表現或是對yeast細胞有毒性

2. Affinity Purification Mass Spectrometry

screenshot.png

第二個常見來取得蛋白質交互作用的實驗方法便是Affinity Purification Mass Spectrometry。這是一個affinity-based為主的檢驗方式,他的專異性和敏感性都跟兩個交互作用蛋白間的作用力和穩定度相關。在這實驗方式,通常會有一個蛋白質作為所謂的bait,然後讓其他的蛋白質混合液流過它,看這過程中哪些蛋白質會跟這個bait蛋白質形成complex,此時再將這個蛋白質的complex拿去做LC-MS/MS,去看捕捉到哪些蛋白質。

優點:

  1. 這個方法可以用來不同蛋白質濃度下的交互作用
  2. prey蛋白是處在相對來說較自然的狀態

 

缺點:

  1. 要是prey蛋白無法讓MS辨認出來,或是濃度較低就無法辨識
  2. 較弱或是作用時間較短的蛋白質互動就看不到
  3. 混合作為prey的蛋白質混合液本身就有可能造成偽陽性

 

Co-immunoprecipitation

screenshot.png

這方法是傳統上所謂的"Gold Standard"

 

X-ray crystallography

screenshot.png

探索資料庫應用(六)MeSH (Medical Subject Headings):美國國家醫學圖書館架構的醫學詞彙索引

Pubmed幾乎是每個做生醫相關研究的人員都會查詢的資料庫,是全世界最大量醫學文獻的地方,如何整理這個資料庫便是美國國家醫學圖書館最大的問題。

  最早在1954年開始,第一個官方的內部指引Subject Heading Authority List公布了,歷經美國國家醫學圖書館幾十年的時間發展了一套文獻索引的方式,這就是所謂的MeSH(Medical Subject Headings),是一套非常細緻的索引系統,目的是幫每一篇論文能做更精緻的標注,在查詢時可以更加的精準,從1963年Medical Subject Headings包含了5700個標目,到2015年已經擴增到27455個。

基本上MeSH記錄由三部分組成:Descriptors, Qualifiers, Supplementary Concept Records

Descritptors

這類型的MeSH紀錄中是最重要的,總共有四大類,除了第三類以外的Descriptors字彙都可以形成樹狀關係。這四類分別是:

  1. Main Headings:最重要的分類字彙
  2. Publication Characteristics:為文章類型的標注
  3. Check Tags:經過幾次的修改,許多check tags慢慢被納入到Main Headings的樹狀結構中
  4. Geographics: 主要用來區別地理資訊的字彙

Qualifiers

又被稱作subheading,用來輔助Descriptors的敘述,共有82個主題的Qualifiers,用來補充或是精準heading下面的概念。

Supplementary Concept Records

又叫做Supplementary Chemical Records(SCRS),主要用來索引化學分子、藥物和罕見疾病。

各種MeSH資源影片

最近美國國家醫學圖書館跟進web 3.0 所謂的linkded data的資料儲存機制,將MeSH的資料已RDF的資料型態公布,甚至也提供自然語言處理的工具MeSH on Demand,自動辨識你文獻中跟MeSH相關的字串 。真的是非常厲害!對於想要處理醫學文獻的自然語言處理相關分析是很大的利器!

Query Linked Data所使用的技術SPARQL:過去歷史和1.1版本

SPARQL的歷史

在RDF於1999年變成標準時,一直到2004年,有很多種查詢用的語言圍繞者商業或是學術需求被開發出來,W3C 於是成立了一個小組RDF Data Access Working Group(RDF-DAWG)來搜集和整理相關的需求,在2004年底左右發表了第一個SPQRQL相關的標準草搞,同時期原本就開始出來用來查詢RDF的工具也陸續支持SPARQL的標準,在2009年W3C RDF-DAWG小組重新改制成SPARQL working group。

在SPARQL 1.0標準裡面,主要有三份文件
1. SPARQL Query Language for RDF
* 描述query的語法
2. SPARQL Protocol for RDF
* 描述成是在執行query時後,要回傳的格式
1. SPARQL Query Results XML format
* 回傳的資料支持xml格式

在最近的SPARQL 1.1版本再新增了8個文件:

1. Overview文件
2. Federate Query如何跨資料檔案的查詢,為了可以支持在distributed 環境下
3. 新增了update的概念,這部分是1.1和1.0最重要的差異,從此可以新增、刪除、取代的功能
4. 關於sevice的功能敘述,主要是為了發展SPARQL client的開發者所寫
5. 支持query結果以JSON格式回傳

screenshot.png
6. 支持query結果以CSV/TSV格式回傳

screenshot.png
7. 支持Graph Store HTTP protocol
8. 支持entailment regimen

Linked data, semantic web和web 3.0的開始:將資料放進web之中

在做生物網絡的分析和整合多組學資料時,發現了使用ontology結構的資料庫,如常見的Gene ontology, Reactome, KEGG, Biogrid,這類將資料彼此關聯性註解起來的趨勢,變成越來越常態,甚至我分析完後的成果也是需要用一個複雜的連結關係來呈現,慢慢發現一個巨大的新觀念在開展,即圍繞所謂的linked data而生的各種eco-system,將資料不以傳統的方式儲存,以關聯性來註解一個資料的方式,解開資料彼此間的特性。

在這個有internet之父的Tim Berners-Lee(同時也是W3C的director)在Ted的演講,便是在倡議大家來響應參與linked data,將自己相關的資料以linked data的形式放在web上面,這邊有簡單定義linked data的三個原則:

1. 所有物件都有以http開頭的URI做為識別
2. 可以藉由HTTP協議從使用這個物件的URI獲取這個物件的資訊
3. 所獲取的資訊不單純只是文字敘述,而是規範化對於物件相關連的資訊

藉由這三個原則來發展一整個將資料放在web上的,共享資料的新型態網路,即所謂的web 3.0,有語意的連結網路!

在這個原則下其實發展了非常多的標準和工具,如資料格式RDF(Resource Description Framework)、爬取這類資料格式的工具或語法SPARQL,Graph database(AllegroGraph, Neo4j, Blazegraph ,Jena TDB),一整個與這相關連的技術產業,其實當挖掘到這些資訊的時候頗為興奮,因為發現這套東西不只在web上面很重要,其實是可以用來整合醫療資訊omic data的好方式,如建立ontology或是vocabulary的工具protege等,如開發出AllegroGraph的公司Franz,便把這套系統用來建立精準醫療相關的知識庫,可以看下面幾條新聞:

How does precision medicine become a reality? The Semantic Data Lake for Healthcare makes it possible. KMworld. 2016, Nov

KM resurgence in life sciences. KMworld. 2017, Mar

21世紀治療法案後,真實世界的證據(Real World Evidence) 將如何改變醫療

21世紀治療法案後,所謂醫療大數據的時代,才算是逐漸到來,因為這法案實際在美國FDA裡面新增許多條例,主要是納入"真實世界的證據(Real-World Evidence)"作為FDA檢驗的資料之一,這包括藥物監視、醫療管理、醫療保險、電子病歷資料、流行病調查等,強調的是相對於“臨床試驗嚴謹設計下”,貼近病患“真實狀況下”的資料,詳細的法條內容可以看這邊,這方案通過非常多前衛的概念,用來加速或是接受一些新科技的出現,然後擁抱他們幫助醫療的進步連結

Real-World Data is data collected from sources outside of traditional clinical trials. These sources may include large simple trials, or pragmatic clinical trials, prospective observational or registry studies, retrospective database studies, case reports, administrative and healthcare claims, electronic health records, data obtained as part of a public health investigation or routine public health surveillance , and registries(e.g., device, procedural, or disease registries). The data is typically derived from electronic systems used in health care delivery, data contained within medical devices, and/or in tracking patient experience during care, including in home-use settings

—– FDA, Use of Real-World Evidence to Support Regulatory Decision-Making for Medical Devices

那到底這些新的證據或是資料間的關係要怎麼架構呢?下面這張圖很廣泛性地來闡述醫療數據,從下往上(基因分子層面),和從上往下資料(臨床電子病歷等)的急劇增長以及彼此的關係,這整合的過程並試產出新的“真實世界證據”。

screenshot.png

可以簡單把這些資料來源分成:
1. 來自醫療體系內相關的資料(用藥、診斷碼、保險資料等等)
2. 電子病歷(EMR)
3. 基因分子資料
4. 病人自我量化的資料

下面這張圖表由Georgia Tech教授Mark L. Braunstein在他的Health Informatics on FHIR課程中所整理的,清楚的把這四大類資料來源,目前在分析上或是接受度的比較。

screenshot.png

在這篇2013年JAMA的文章The Inevitable Application of Big Data to Health Care就提到數據量提高後,可以從哪幾個層面來改善醫療的進展:

1. 增加產生醫學知識的能力

下面這張圖表是由IBM Watson研究小組的Jimeng Sun博士所做的研究,他想表達的是傳統Congestion Heart Failture的診斷是非常困難的,因為初期的臨床症狀非常細微,所以他加入了200多個非傳統臨床標的之預測因子,可以把診斷率提高。藉由這種方式,可以探索出以前所不知道的知識。

screenshot.png
2. 幫助臨床決策

下面這個視覺化應用是由Rimidi公司所發展,為了解決糖尿病病人的血糖控制,在這圖型上,會整合病人過去到現在的血糖數值,整理出應該的變化,然後醫師可以根據所挑選的藥物,而圖型上會調整出,假如使用這藥物下,病人血糖可能的改變,藉此幫助醫師來做臨床決策。
screenshot.png




3. 將分子層面基因組、表現組學等生物醫學知識轉譯成臨床使用

4. 改變醫療健康生態,讓資訊能更直接地讓每個場域中的人能享用

5. 加速產生新型態的醫療照護模式

閱讀參考:
1. 孫鑫,譚倩,唐立,于川,李靜,康德英,陳進,李幼平. 重新認識真實世界研究.(2017)中國實證醫學雜誌,vol.17,No.2

  1. Sheila Kaplan. Winners and loser of the 21st Centruy Cures Act(2016). STAT. Dec 5