Linked data, semantic web和web 3.0的開始:將資料放進web之中

在做生物網絡的分析和整合多組學資料時,發現了使用ontology結構的資料庫,如常見的Gene ontology, Reactome, KEGG, Biogrid,這類將資料彼此關聯性註解起來的趨勢,變成越來越常態,甚至我分析完後的成果也是需要用一個複雜的連結關係來呈現,慢慢發現一個巨大的新觀念在開展,即圍繞所謂的linked data而生的各種eco-system,將資料不以傳統的方式儲存,以關聯性來註解一個資料的方式,解開資料彼此間的特性。

在這個有internet之父的Tim Berners-Lee(同時也是W3C的director)在Ted的演講,便是在倡議大家來響應參與linked data,將自己相關的資料以linked data的形式放在web上面,這邊有簡單定義linked data的三個原則:

1. 所有物件都有以http開頭的URI做為識別
2. 可以藉由HTTP協議從使用這個物件的URI獲取這個物件的資訊
3. 所獲取的資訊不單純只是文字敘述,而是規範化對於物件相關連的資訊

藉由這三個原則來發展一整個將資料放在web上的,共享資料的新型態網路,即所謂的web 3.0,有語意的連結網路!

在這個原則下其實發展了非常多的標準和工具,如資料格式RDF(Resource Description Framework)、爬取這類資料格式的工具或語法SPARQL,Graph database(AllegroGraph, Neo4j, Blazegraph ,Jena TDB),一整個與這相關連的技術產業,其實當挖掘到這些資訊的時候頗為興奮,因為發現這套東西不只在web上面很重要,其實是可以用來整合醫療資訊omic data的好方式,如建立ontology或是vocabulary的工具protege等,如開發出AllegroGraph的公司Franz,便把這套系統用來建立精準醫療相關的知識庫,可以看下面幾條新聞:

How does precision medicine become a reality? The Semantic Data Lake for Healthcare makes it possible. KMworld. 2016, Nov

KM resurgence in life sciences. KMworld. 2017, Mar

發表迴響

在下方填入你的資料或按右方圖示以社群網站登入:

WordPress.com 標誌

您的留言將使用 WordPress.com 帳號。 登出 /  變更 )

Facebook照片

您的留言將使用 Facebook 帳號。 登出 /  變更 )

連結到 %s