Cytoscape 3.5.1最新版本,文檔大幅升級

screenshot.png

Cytoscape這個開源工具做生物網絡視覺化的最好幫手,之前有稍微介紹一下,最近在2017/4月版本再度升級,從3.4.x邁進到3.5.x,新增像是ID轉換網絡合併功能,對於我來說,最驚豔的是文檔的升級,記得當初看cytoscape原生文檔來學習的時候,有點小痛苦,且那時候只有2.0版本的,目前升級後的文檔寫得很流暢,且搭配更多的截圖,另外,最棒的就是新增四個使用Cytoscape app的章節,這部分可以讓功力大增,分別是下面四章:
1. WikiPathway
2. Extend Biological Process with regulatory interactions (WikiPathways-App, NetworkAnalyzer, PathExplorer, CyTargetLinker)
3. Simple clustering with clusterMaker2 (clusterMaker2 0.95)
4. Over-representation analysis with Cytoscape ( clusterMaker2 0.95, setsApp 2.1.0, BiNGO 3.0.3, and ClueGO 2.2.5.)

蛋白質交互(Protein-Protein Interaction)作用資料是怎麼來的?

screenshot.png近年來因為各式技術的進步,越來越多的蛋白體學資料,可以用來探討許多蛋白質層面的分子互動,而這些研究對於我們理解生物體內的機制很重要。那到底這類的蛋白分子間交互作用的關係資料是怎麼來的呢?

這類的資料來源通常分成兩類:1. 計算機預測(computational) 2. 實驗(experimental)
雖然使用計算機預測而來的資料常常會讓實驗科學家敬謝不敏,但這類資訊反而可以補足我們在實驗資料較少的領域或是生物體。

這邊分享常見用來取得蛋白質交互作用的方法:
1. Yeast two hybrid
screenshot.png

Yeast two-hybrid的方法是目前最常用來做蛋白質交互作用的方法,Y2H是一種complementation assay,其偵測蛋白質有無交互的機制主要是使用一組轉錄因子,其分成BD(DNA-binding domain)和AD(DNA-activation domain),分別跟兩個有興趣研究的蛋白質結合,一個為bait(x),另一個為prey(Y)。當兩個蛋白質有交互作用的話,就會轉譯出reporter gene。

優點:
– 快速
– 便宜
– 可大量
– 為in vivo system下的環境
缺點:
– 可能由yeast的蛋白質分別橋接跟兩個蛋白質作用,而造成假陽性
– 兩個蛋白質可能原本不在同一個細胞的區域
– 兩個蛋白質可能無法在yeast中表現或是對yeast細胞有毒性

2. Affinity Purification Mass Spectrometry

screenshot.png

第二個常見來取得蛋白質交互作用的實驗方法便是Affinity Purification Mass Spectrometry。這是一個affinity-based為主的檢驗方式,他的專異性和敏感性都跟兩個交互作用蛋白間的作用力和穩定度相關。在這實驗方式,通常會有一個蛋白質作為所謂的bait,然後讓其他的蛋白質混合液流過它,看這過程中哪些蛋白質會跟這個bait蛋白質形成complex,此時再將這個蛋白質的complex拿去做LC-MS/MS,去看捕捉到哪些蛋白質。

優點:

  1. 這個方法可以用來不同蛋白質濃度下的交互作用
  2. prey蛋白是處在相對來說較自然的狀態

 

缺點:

  1. 要是prey蛋白無法讓MS辨認出來,或是濃度較低就無法辨識
  2. 較弱或是作用時間較短的蛋白質互動就看不到
  3. 混合作為prey的蛋白質混合液本身就有可能造成偽陽性

 

Co-immunoprecipitation

screenshot.png

這方法是傳統上所謂的"Gold Standard"

 

X-ray crystallography

screenshot.png

探索資料庫應用(六)MeSH (Medical Subject Headings):美國國家醫學圖書館架構的醫學詞彙索引

Pubmed幾乎是每個做生醫相關研究的人員都會查詢的資料庫,是全世界最大量醫學文獻的地方,如何整理這個資料庫便是美國國家醫學圖書館最大的問題。

  最早在1954年開始,第一個官方的內部指引Subject Heading Authority List公布了,歷經美國國家醫學圖書館幾十年的時間發展了一套文獻索引的方式,這就是所謂的MeSH(Medical Subject Headings),是一套非常細緻的索引系統,目的是幫每一篇論文能做更精緻的標注,在查詢時可以更加的精準,從1963年Medical Subject Headings包含了5700個標目,到2015年已經擴增到27455個。

基本上MeSH記錄由三部分組成:Descriptors, Qualifiers, Supplementary Concept Records

Descritptors

這類型的MeSH紀錄中是最重要的,總共有四大類,除了第三類以外的Descriptors字彙都可以形成樹狀關係。這四類分別是:

  1. Main Headings:最重要的分類字彙
  2. Publication Characteristics:為文章類型的標注
  3. Check Tags:經過幾次的修改,許多check tags慢慢被納入到Main Headings的樹狀結構中
  4. Geographics: 主要用來區別地理資訊的字彙

Qualifiers

又被稱作subheading,用來輔助Descriptors的敘述,共有82個主題的Qualifiers,用來補充或是精準heading下面的概念。

Supplementary Concept Records

又叫做Supplementary Chemical Records(SCRS),主要用來索引化學分子、藥物和罕見疾病。

各種MeSH資源影片

最近美國國家醫學圖書館跟進web 3.0 所謂的linkded data的資料儲存機制,將MeSH的資料已RDF的資料型態公布,甚至也提供自然語言處理的工具MeSH on Demand,自動辨識你文獻中跟MeSH相關的字串 。真的是非常厲害!對於想要處理醫學文獻的自然語言處理相關分析是很大的利器!

Query Linked Data所使用的技術SPARQL:過去歷史和1.1版本

SPARQL的歷史

在RDF於1999年變成標準時,一直到2004年,有很多種查詢用的語言圍繞者商業或是學術需求被開發出來,W3C 於是成立了一個小組RDF Data Access Working Group(RDF-DAWG)來搜集和整理相關的需求,在2004年底左右發表了第一個SPQRQL相關的標準草搞,同時期原本就開始出來用來查詢RDF的工具也陸續支持SPARQL的標準,在2009年W3C RDF-DAWG小組重新改制成SPARQL working group。

在SPARQL 1.0標準裡面,主要有三份文件
1. SPARQL Query Language for RDF
* 描述query的語法
2. SPARQL Protocol for RDF
* 描述成是在執行query時後,要回傳的格式
1. SPARQL Query Results XML format
* 回傳的資料支持xml格式

在最近的SPARQL 1.1版本再新增了8個文件:

1. Overview文件
2. Federate Query如何跨資料檔案的查詢,為了可以支持在distributed 環境下
3. 新增了update的概念,這部分是1.1和1.0最重要的差異,從此可以新增、刪除、取代的功能
4. 關於sevice的功能敘述,主要是為了發展SPARQL client的開發者所寫
5. 支持query結果以JSON格式回傳

screenshot.png
6. 支持query結果以CSV/TSV格式回傳

screenshot.png
7. 支持Graph Store HTTP protocol
8. 支持entailment regimen

Linked data, semantic web和web 3.0的開始:將資料放進web之中

在做生物網絡的分析和整合多組學資料時,發現了使用ontology結構的資料庫,如常見的Gene ontology, Reactome, KEGG, Biogrid,這類將資料彼此關聯性註解起來的趨勢,變成越來越常態,甚至我分析完後的成果也是需要用一個複雜的連結關係來呈現,慢慢發現一個巨大的新觀念在開展,即圍繞所謂的linked data而生的各種eco-system,將資料不以傳統的方式儲存,以關聯性來註解一個資料的方式,解開資料彼此間的特性。

在這個有internet之父的Tim Berners-Lee(同時也是W3C的director)在Ted的演講,便是在倡議大家來響應參與linked data,將自己相關的資料以linked data的形式放在web上面,這邊有簡單定義linked data的三個原則:

1. 所有物件都有以http開頭的URI做為識別
2. 可以藉由HTTP協議從使用這個物件的URI獲取這個物件的資訊
3. 所獲取的資訊不單純只是文字敘述,而是規範化對於物件相關連的資訊

藉由這三個原則來發展一整個將資料放在web上的,共享資料的新型態網路,即所謂的web 3.0,有語意的連結網路!

在這個原則下其實發展了非常多的標準和工具,如資料格式RDF(Resource Description Framework)、爬取這類資料格式的工具或語法SPARQL,Graph database(AllegroGraph, Neo4j, Blazegraph ,Jena TDB),一整個與這相關連的技術產業,其實當挖掘到這些資訊的時候頗為興奮,因為發現這套東西不只在web上面很重要,其實是可以用來整合醫療資訊omic data的好方式,如建立ontology或是vocabulary的工具protege等,如開發出AllegroGraph的公司Franz,便把這套系統用來建立精準醫療相關的知識庫,可以看下面幾條新聞:

How does precision medicine become a reality? The Semantic Data Lake for Healthcare makes it possible. KMworld. 2016, Nov

KM resurgence in life sciences. KMworld. 2017, Mar

21世紀治療法案後,真實世界的證據(Real World Evidence) 將如何改變醫療

21世紀治療法案後,所謂醫療大數據的時代,才算是逐漸到來,因為這法案實際在美國FDA裡面新增許多條例,主要是納入"真實世界的證據(Real-World Evidence)"作為FDA檢驗的資料之一,這包括藥物監視、醫療管理、醫療保險、電子病歷資料、流行病調查等,強調的是相對於“臨床試驗嚴謹設計下”,貼近病患“真實狀況下”的資料,詳細的法條內容可以看這邊,這方案通過非常多前衛的概念,用來加速或是接受一些新科技的出現,然後擁抱他們幫助醫療的進步連結

Real-World Data is data collected from sources outside of traditional clinical trials. These sources may include large simple trials, or pragmatic clinical trials, prospective observational or registry studies, retrospective database studies, case reports, administrative and healthcare claims, electronic health records, data obtained as part of a public health investigation or routine public health surveillance , and registries(e.g., device, procedural, or disease registries). The data is typically derived from electronic systems used in health care delivery, data contained within medical devices, and/or in tracking patient experience during care, including in home-use settings

—– FDA, Use of Real-World Evidence to Support Regulatory Decision-Making for Medical Devices

那到底這些新的證據或是資料間的關係要怎麼架構呢?下面這張圖很廣泛性地來闡述醫療數據,從下往上(基因分子層面),和從上往下資料(臨床電子病歷等)的急劇增長以及彼此的關係,這整合的過程並試產出新的“真實世界證據”。

screenshot.png

可以簡單把這些資料來源分成:
1. 來自醫療體系內相關的資料(用藥、診斷碼、保險資料等等)
2. 電子病歷(EMR)
3. 基因分子資料
4. 病人自我量化的資料

下面這張圖表由Georgia Tech教授Mark L. Braunstein在他的Health Informatics on FHIR課程中所整理的,清楚的把這四大類資料來源,目前在分析上或是接受度的比較。

screenshot.png

在這篇2013年JAMA的文章The Inevitable Application of Big Data to Health Care就提到數據量提高後,可以從哪幾個層面來改善醫療的進展:

1. 增加產生醫學知識的能力

下面這張圖表是由IBM Watson研究小組的Jimeng Sun博士所做的研究,他想表達的是傳統Congestion Heart Failture的診斷是非常困難的,因為初期的臨床症狀非常細微,所以他加入了200多個非傳統臨床標的之預測因子,可以把診斷率提高。藉由這種方式,可以探索出以前所不知道的知識。

screenshot.png
2. 幫助臨床決策

下面這個視覺化應用是由Rimidi公司所發展,為了解決糖尿病病人的血糖控制,在這圖型上,會整合病人過去到現在的血糖數值,整理出應該的變化,然後醫師可以根據所挑選的藥物,而圖型上會調整出,假如使用這藥物下,病人血糖可能的改變,藉此幫助醫師來做臨床決策。
screenshot.png




3. 將分子層面基因組、表現組學等生物醫學知識轉譯成臨床使用

4. 改變醫療健康生態,讓資訊能更直接地讓每個場域中的人能享用

5. 加速產生新型態的醫療照護模式

閱讀參考:
1. 孫鑫,譚倩,唐立,于川,李靜,康德英,陳進,李幼平. 重新認識真實世界研究.(2017)中國實證醫學雜誌,vol.17,No.2

  1. Sheila Kaplan. Winners and loser of the 21st Centruy Cures Act(2016). STAT. Dec 5

DRGs住院診斷關聯群

臨床上的疾病分類系統,在幾十年前幾乎都是為了方便不同醫療體系間的溝通而發展的,但隨者醫療商業化,國家系統開始有了公衛組織,這些對於疾病的分類系統便逐漸用來管理醫院的工具,甚至可以當作是商業保險、醫療給付所使用的工具。Diagnosis Related Groups便是最好的例子,在1980年代由耶魯大學的Rober B Fetter醫師發展出來的,出發點本來是用來方便對病人分類,後來經過許多調整後,便把這概念用來做醫療保險的給付系統,美國從1980年代開始醫療支出大幅上升,便開始希望設計一套新的醫療支付系統來處理這個問題,於是美國在負責處理醫療保險的部門Centers for medicare & medicaid services便使用DRGs來新的支付系統,便是所謂的CM-DRGs,一開始的CM-DRGs不太能反映同一個類別中,不同疾病的嚴重程度,且在美國實行的時候,也是慢慢導入到不同的疾病中。在1986年之後緊接者法國修改了CMS-DRGS,提出GHM1(Group Homogeneous de Malades 1),澳洲提出了AN-DRGS在1991年開始實施,陸陸續續地在匈牙利(1992)、義大利(1995)、西班牙(1997)、丹麥(2002)、英國(2003)都採用了DRG的概念,這使得DRG變成醫療給付上的熱門方法。

台灣在實施全民健保後,也面臨到入不敷出的問題,於是減少醫療支出便是很重要的一件事情,而從論件計酬的方式改到DRGs從世界各國的實施上來看都是一個不錯解決這問題的方式,於是台灣近幾年開始導入DRGs進入臨床上的健保給付。這邊可以看到清楚的時間列表,從民國88年便開始請專家展開導入DRGs相關的討論會議,第一版的TW-DRGs在民國91年頒布,持續改進到第三本,本來預計到97年要開始實施,但後來延到民國105年初才開始實行。
screenshot.png

DRG的框架主要如下圖:
screenshot.png
先從病人的主要診斷來進行分類,這稱作MDC(Major Disease Categories),緊接者則是要看是否有做手術、各式處理,再以此來調整費用。下圖可以看一下目前有哪些MDC類別:
screenshot.pngscreenshot.png

本質上來說,這套模式會參考病人的主要診斷、手術處置、有無併發症/合併症、年齡、性別和出院狀況做為依據,本身具備周延性和互斥性,在給定一定額下,讓醫院自負盈虧。
目前TW-DRG 4.0版本主要有1716項,位於各個MDC下面,整個衛生福利部中央健康保險署的資料非常豐富,且撰寫很清楚。

當有了DRG這個方法使用了病人的疾病、處置、基本資料等來為每個病人做給付的分類,那通常這時候醫院會開始使用所謂的臨床路徑(Clinical Pathway),將在同一個DRGs下的診斷處置以及在醫院內病人所進行的流程做一個標準流程,並且藉由優化這個標準流程來降低同一個DRGs下病人處置的費用支出,並且提高照護品質。

那實際上DRG會如何拿來用計算費用呢?
可以看看這篇在Bull World Health Organ 2013;91::746-756A裡面刊登的圖
screenshot.png
從此圖可以看到一組DRG的費率可以由三個要素乘積決定,分別是Cost weight, Base rate 和adjustment factor,單一個DRG的Cost weight數值(台灣則是稱作relative weight)反映了他與其他的DRG之間在治療上的困難和花費數量,Base rate在所有DRG中是相同的,最後的adjustment factor則可以用來幫如教學醫院等,在基礎花費上本來比較高的機構,調整支付水準的。

在台灣則如何計算每個參數呢?
screenshot.pngscreenshot.png

真實世界的證據(Real-World Evidence):醫學證據觀念的轉換,不再以隨機雙盲試驗為一切

這篇由中國科學院上海生科院生化與細生研究員吳家睿所寫的文章迈向精确医学时代,真实世界证据不容忽视,內容寫得頗好,下面留一些連結!

Real-World Evidence — What Is It and What Can It Tell Us?
http://www.nejm.org/doi/full/10.1056/NEJMsb1609216

Using Design Thinking to Differentiate Useful From Misleading Evidence in Observational Research
http://jamanetwork.com/journals/jama/fullarticle/2603908

Whether to Intubate During Cardiopulmonary ResuscitationConventional Wisdom vs Big Data
http://jamanetwork.com/journals/jama/fullarticle/2598715

New “21st Century Cures” LegislationSpeed and Ease vs Science
http://jamanetwork.com/journals/jama/fullarticle/2597296

The Network For Excellence In Health Innovation
http://www.nehi.net/

Use of Real World Evidence to Support Regulatory Decision Making for Medical Devices
https://www.federalregister.gov/documents/2016/07/27/2016-17750/use-of-real-world-evidence-to-support-regulatory-decisionmaking-for-medical-devices-draft-guidance

PMI Working Group
https://www.nih.gov/allofus-research-program/pmi-working-group

Personalized medicine: Time for one-person trials
http://www.nature.com/news/personalized-medicine-time-for-one-person-trials-1.17411

相關新聞
美國國會通過《21世紀醫療法案》最終版本

醫療數據交換性(Interoperability):從死亡證明到ICD-10

醫療數據的交換性(Interoperability)一直以來都是全世界醫療體系在努力提升的,像是HL7也是這持續不斷努力過程中的一部份,可以將醫療體系中的資訊分成三類,依據這三類也因此衍生出不同的標準,這三類分別是:

1. Data
2. Message
3. Document

這三類的關係其實是一層層往下的,這邊的Data,其實是在指醫學用語的統一,大家是怎麼形容一些疾病的,或是藥物等,當我們有了統一個醫學相關用語,這才會有彼此理解的可能,下面這個圖,很清楚地展示醫學用語的整合之重要性,這當中衍生出所謂的語法(Syntax)和語法(Semantic),兩個層面上的統一。
螢幕快照 2017-04-19 下午2.05.23.png

關於這類的努力,其實可以回朔到死亡證明,在過去時代,往往沒有任何資料可以去查找關於一個地區人們的死亡原因,直到大概1400年,義大利北部才開始推行所謂的死亡證明
螢幕快照 2017-04-19 下午2.12.43.png
在之後1629到1631年間在義大利北部的瘟疫大爆發,這些死亡證明資料開始被拿來用作分析資料,讓政府統計這些重大事件的數據。

到1661年的時候,英國的經濟學家(第一個開始做人口統計的研究者)John Graunt為了要記錄英國倫敦那時候嬰兒的死亡原因,試圖用比較細緻的方式來描述死亡
220px-Graunt2.gifGraunt_Observations.jpeg

在1893年美國的統計學家Jacques Bertillon提出了在死亡分類上的方法Bertillon Classification,從身體系統的架構,貼近臨床上的導因來做分類。

直到1899年在丹麥,第一版的ICD(International Classification of Disease)編碼被提出,直到今日,已有ICD-11版本了,雖然目前在台灣或是美國,才剛開始推行使用ICD-10。在ICD-11的編碼,使用了所謂的Content Model,來加速從病例資料中自動分類編碼的目的。

下面可以看一下,不同版本間的ICD其編碼結構的差異:
螢幕快照 2017-04-19 下午2.27.58.png

也可以直接到WHO提供的ICD-10 Browser來一窺ICD-10編碼的細節:

螢幕快照 2017-04-19 下午2.30.14.png

awk 進階筆記:字串處理

用awk可以解決很多用高階語言需要很多代碼量才能解決的問題,並且在大型的文字資料的處理很快速(純txt檔),一開始使用awk並不會使用到裡面很多的函數,直到最近在使用bioawk後,才發現其實awk很多可以用來處理字串的函數,且極度方便。

會在這邊用來負責統整跟awk字串處理的函數

awk substr用法:

substr(string, start [, length ])

string = "abcdef"
# try to get "abCDEf", won't work
substr(string, 3, 3) = "CDE"

參考閱讀:
The GNU Awk User’s Guide String Function