探索資料庫:PMC 和 Pubmed有什麼不一樣?

現在最常找文獻的方式,其實就是直接古狗(google)有興趣的詞彙,期待google大神丟給我幾篇大作,其中點進去往往會跑到PMC或是Pubmed的網站,雖然兩個都是在NIH下的,但兩者查到的東西都不太同,那到底有什麼不同呢?

這篇文章可以非常好的回答這個問題:

MEDLINE, PubMed, and PMC: How are they different?

談到PubMed和PMC,也需要提及MEDLINE,因為它們算是有時代關聯的產物,MEDLINE是最早的美國國家生醫文獻資料庫,在1960年代就有,收錄的文獻都有相當完整的編碼,採用MeSH字彙來整理,所以用自然語言或是相關語義搜索的話,能有比較完整且精準的查找能力,但其收錄的文獻相對就少,畢竟需要手工人力去對這些文獻做索引,或是依賴發表者的提交,為了應付文獻快速的飛長,Pubmed的資料庫便在1996年出現,他除了包含了MEDLINE資料庫的內容外,還包括了還未經過索引的文獻,以及相關的引用資料,隨者開源閱讀和免費全文的趨勢,PMC資料庫在2000年出現,主打收錄的文獻都是提供全文閱讀的,有了上述的概念,便知道說,要找資料時,根據你的搜尋策略和目的,便可以有不同的入口。

下面則是原文針對PubMed的收錄原則,有興趣的話可以看一下。節錄台大圖書館的網站文章

1. 處理中的文章,此類文章尚未由專業館員加上MeSH,亦尚未收錄於MEDLINE。
2. MEDLINE收錄的期刊中,不屬於MEDLINE收錄範圍的文章 (例如載於基礎科學期刊裡的板塊構造、天體物理學文章),此類期刊如果有刊載生命科學相關主題的文章,會標註MeSH。
3. 尚未正式發表的期刊文章,此類文章通常是出版社經由電子方式提交給NLM。
4. 部分尚未更新為近代MeSH辭彙(1966年以前),且尚未收錄於MEDLINE之OLDMEDLINE資料。
5. 在MEDLINE收錄範圍之外的生命科學領域期刊,如果有提交電子全文予PubMedCentral且經過NLM審核,即可在PubMed上查得。
6. 美國國家衛生研究院 (National Institutes of Health,簡稱NIH)資助之研究者所發表的文章。
7. 收錄於美國國家生物技術資訊中心 (National Center for Biotechnology Information,簡稱NCBI) BookShelf上的大部份圖書。

這裡面真的藏滿人類的珍寶智慧啊xd

閱讀參考:

台大圖書館 MELINE與PubMed差異比較

知乎:PubMed, PMC和MEDLINE的區別和聯繫

機器學習在實驗室醫學的現況

先不管人工智慧這詞在這兩年如何延燒,本質上,都只是人類科技的漸進式進步,每一個之間都有脈絡相連,從所謂的統計分析、大數據、機器學習、深度學習到人工智慧,但媒體為了方便讓門外之人來稍微理解,才需要如此用Buzz word下標。

駐:這篇以此文章的角度訴說,其實我的想法中,機器學習只是一個演算法工具,用來作一些預測、分類、判斷。

這邊分享一篇2019三月在AACC裡的一篇新聞式的文章,開頭就是:
Machine Learning and Laboratory Medicine: Now and the Road Ahead,作者是Thomas Durant醫師,目前耶魯大學檢驗醫學的研究醫師,從作者的年紀和談論的主題,可以發現新的一批年輕醫師開始將其他領域的知識引入實驗醫學,這算是一個蠻令人振奮的氛圍,如同長庚醫院檢驗醫學的王信堯醫師最近用機器學習開發的抗藥性菌株辨識演算法,也大大改變了如今臨床上的資料取得的速度。

閱讀完這篇文章後,可以發現其寫作對象應該是其他的檢驗醫學醫師,內容沒有在技術細節琢磨太多,反而在談論檢驗醫學科的醫師如何將機器學習中引入實驗室醫學的角色,甚至帶入臨床場域的角色。

這篇文章主要可以分成三部分:

  • 1. 簡介
  • 2. 機器學習目前在醫院檢驗室內和外的使用狀況
  • 3. 在引入臨床中會遇到的困境

簡介:機器學習足夠成熟和穩定

通常醫院環境是相對保守的地方,可以從其嚴謹的規範看得出來,所有與病人相關的處置,通常都需要經過足夠的臨床試驗和證據支持,才能在醫院內推行,其中醫院檢驗室內的規範,算是其中之最,有許多實驗室的認證需要完成,因為每個檢驗數值都攸關病人的臨床決策和治療,所以導入任何新技術都需要驗證,即使是常規的檢驗方法都有品管在嚴格監測,所以機器學習這技術要導入,必定代表其在其他領域有一定的成熟度,這點可以從每日的新聞和許多身邊的電子器材中感受到,所以如今等待者檢驗醫學的醫師找到一套比較好的方法去導入這技術到檢驗室中,同樣地需要為其找到良好的評估和驗證的方法,這也是導入機器學習於醫院中的第一層挑戰。

機器學習的應用在醫院檢驗室內以及外

這篇所謂的醫院檢驗室內與外,是在用臨床環節來思考和區分的,這邊的臨床環節是指從病人檢體送到檢驗科,檢驗科發出報告,臨床醫師閱讀報告來做臨床治療,這一個流程中,在報告抵達各科臨床醫師前和後中,機器學習如何落地其中,在檢驗科內部,目前有些已經核准的產品如Cellavision, Accelerate Pheno(相關論文/)。

來自Marta Veses-Garcia…etc. Rapid Phenotypic Antibiotic Susceptibility Testing of Uropathogens Using Optical Signal Analysis on the Nanowell Slide. Frontiers in Microbiology. 10 July 2018

Clinical pathologist suited for the role to guide these types of efforts, owing not only to ML models frequent reliance on laboratory data but also laboratorians’ expertise in validating new technology for clinical purpose

節錄自此篇文章

在實驗室外,則是整合在電子病歷(Electrionic Health Record, EHR)裡頭結合檢驗數值來做臨床決策的工具(Clinical Decision Support, CDS),這部分則需要有更多相關的規範指引,在2017年美國FDA有發表一個關於臨床決策支持系統(CDS)軟體的規範草稿,這部份可能要等到規範正式後,才比較容易合法的發展。

引入臨床中會遇到的困境

將這些技術引入到臨床中,會遭遇到的問題主要有:1. 資料處理的問題 2. 模型的可概括性 3. 相關規範 4. 臨床醫師的接受度。 這幾個問題,目前都沒有很好的解決辦法,不過這也代表的機會。

Laboratory medicine professionals will need to understand what can be done reliably with the technology, what the pitfalls are, and to establish what constitutes best practices as we introduce ML models into clinical workflows.

節錄自此篇文章

書籍閱讀Genomics: A Very Short Introduction

Genomics: A Very Short Introduction

這本書是最近發現的,為牛津出版社通識系列A Very Shorty Introduction 中,生物醫學領域針對基因體的簡介,因為還沒有中文譯本,我自己覺得稱呼其 簡談基因體:過去、現在和未,這名字應該蠻適合的,這本書在去年2018年2月左右發行的。

加拿大戴爾摩斯大學(Dalhousie University)生物分子學教授約翰.阿奇博(John M. Archibald)是這本書的撰寫人,其本身為加拿大皇家科學院院士,研究領域為生物多樣性和真核生物的演化,所以書中有一大部分在談論微生物體學的相關想法,其有出版另一本書One Plus One Equals One: Symbiosis and the Evoluation of Complex life。

本書定位為入門介紹,但其內容其實部分會帶到頗當前的觀念,並不會簡單到讓人已有基礎的人失去興趣。

本書的架構大概分成七個部分:

第一部分What is genomics?
簡單定義什麼是基因體學,和關於基因的基本觀念,和為什麼定序基因序列是重要的。

第二部分How to read the book of life?
則介紹了過去、現在和未來的定序方法,從桑格定序法(sanger sequencing, chain terminator sequencing)到反向終止鍊法(Reversible chain terminator sequencing, illumina),以及目前可以用來長序列奈米孔洞定序技術(Single Molecule Sequencing),基本上,其圖示相當清楚,觀念陳述為主,不陷於技術細節。

第三部分Making sense of gene and genomes
這邊帶入了目前如何使用定序的資訊來拼裝基因體的完整資訊,並且用其來推測基因相對應的功能。

第四部分The human genome in biology and medicin
整理了從人類基因體計畫、相關基本基因的觀念、HapMap計畫、癌症計劃等等面相基因體研究對於生醫領域的方向。

第五部分Evolutionary genomics
因為本書的作者其是微生物領域的專家,這邊分享近期作為研究物種演化工具的技術和觀念,如何來評估兩個物種間發展的先後等等。

第六部分 Genomics and microbial world
這章節帶入目前蠻火紅的微生物體學的進展。

第七部分The future of genomic
談論目前嘗試用基因定序技術延伸出來做資料儲存、合成生物學和未來個人基因體時代的闡述。


書籍閱讀:Bad Blood: Secrets Lies in a Silicon Valley Startup

惡血:矽谷獨角獸的醫療騙局!深藏血液裡的祕密、謊言與金錢

對於實驗診斷學或是檢驗醫學有興趣的人,可以看這本書,從中可以獲得一些職涯的啟發,另外,這也是圍繞這職位相關的人所展開的故事。

這本書是由華爾街日報記者John Carreyrou所撰寫的,他是位做深度報導的記者,原文的文筆極好,引人入勝的撰寫方式,彷彿在看電影一般,而閱讀者就在每一幕發生的場景中,相信這本書有機會改變成電影。

惡血(Bad blood)這本書的主題是曾經為矽谷獨角獸的血液檢測公司Theranos,故事的主人翁為公司創辦人伊莉莎白.霍姆斯(Elizabeth Holmes),在進入史丹佛大學後,她進到化學工程系教授Channing R. Robertson的實驗室後,在大一升大二的暑假,開始發想做一滴血的檢測技術,從此開始創業生涯,Theranos的名字便是整合了Therapy和Diagnosis兩字的融合。

整本書的架構基本上是照者時間序列的方式來敘述這間公司的歷史,從他們發展“Edison”到"miniLab"、董事會成員間的糾紛、Theranos內部的保密風氣和對員工們填寫保密協議的執著和其法律顧問-知名David Boies律師事務所是如何無所不用其極地追蹤和壓迫其離職員、Homes是如何跟美國國防部將軍斡旋將其器材使用在阿富汗等戰場、如何跟知名連鎖藥局Walgreen和零售商Safeway談health center的合作。

  1. Elizabeth Holms是位厲害的創業者,如何在沒有“實際”成果時,能募得如此高額的投資,其如何計畫性的利用各種人脈,當然其本身具有的熱情和聰明絕對無法否認,其所挑的題目:讓人們不在懼怕抽血,可謂打中許多成就斐然,已屆高齡的權勢人物心中的想望,以此凝聚其往前推進的力量,可惜題目和野心太大,攸關人命,所以才會被如此反撲,否則很多知名的新創公司,都是和她一般變做變搞出來的。
  2. 血液檢驗行業是需要符合必要的法規和經過認證的實驗室人員才能運行的,此技術和行業在精準醫療的時代越來越重要,各式各樣的檢驗不斷在開發。
  3. 美國調查記者John Carreyrou,如何在Theranos獲得市場在一片“好評”和各種大咖政商名流支持下,撐過巨大壓力後,讓Theranos內部實際的狀況讓大家知道,當時的Theranos所擁有的財務能力是非常驚人的,獨角獸級的現金,書中對其中員工和相關人物在揭露真相時遭遇的法律威脅,有非常真的描述。
  4. 本書中對於各種人物的描述和內心揣摩恰到好處,讓讀者能感受到裡面人物在做各種決定時的壓力和掙扎。

後記,不小心看到這篇論文,算是Theranos公司在2018最後產出的論文,可以看出Channing R. Robertson教授到最後還是蠻挺Elizabeth Holmes的,相信要是Holmes不那麼地急躁想要使用在病人身上,也許會是間不錯的公司。

Marilyn B. Nourse,…,Channing R. Robertson, Elizabeth A. Holmes. Engineering of a miniaturized, robotic clinical laboratory. Bioengineering & Translational Medicine. 3: 58-70. PMID 29376134 DOI: 10.1002/btm2.10084 


最近美國的電視台出了幾部關於Therano的紀錄片,內容可以直接看到書中出現的人物接受訪問,好奇這些人的實際長相,可以觀看這些紀錄片!

HBO紀錄片版本:The Inventor: Out for Blood in Silicon Valley (2019)

ABC News版本: The Dropout

2018 Rocky Bioinformatic Conference 行腳

今年另一個特休挑了2018 Rocky Bioinformatic Conference來參加,順便投了一篇關於複雜網絡資料分析的海報,舉辦地點在美國 科羅多來拉州的亞斯本(Aspen) 斯洛馬斯 (Snowmass),時間在12月5-7號,這算是比較小型的會議,只有約17年的歷史,是ISCB下的會議。

對於從美國境外到這個地方的機票比較難買,必須分段買,像這次就是買香港航空從台灣到洛杉磯的機票和聯合航空洛杉磯到雅斯本(Aspen)的機票,中間要自己抓轉機時間。

到亞斯本機場後,一片靄靄白雪,難怪是區域型的生物資訊會議,不過這可能對美歐美人士算是正常冬天吧,對於亞熱帶區的黃種人有點吃不消,機場對外的交通有免費的巴士接駁,公車等候站有紅外線燈和電子儀表板,顯示下一班公車抵達時間,可以避免在外面抖腳發寒。

Rocky2017的議程總共有三天,每天的12pm-4pm都有滑雪時刻,其他則是keynote speaker(40分鐘)和lighting speaker(10分鐘)交雜再一起,上午和下午的議程會有20分鐘的休息時刻,有點心吧可以享受。整場會議主要是以科羅拉多州為主,部分來自其他地區的大學,主辦方為科羅拉多州大學醫學院,附屬於ISCB下的會議,沒有水平議程,少了多頭馬車的困擾,當然隨之而來的是蠻雜的talk。

今年會議主席是Larry Hunter教授,是科羅拉多州大學計算生物學程的負責人,也算是Rocky會議的起始人之一。

會議主講人之一陸致用(Zhi-Yong, Lu)博士,其為NCBI文獻搜索負責人之一,其分享蠻多Pubmed近期正在改進的功能,打破對於Pubmed的傳統印象,原來其背後負責的科學家花了非常多經歷在改善使用者,以及增進Pubmed對於公眾的效用,還利用這個平台來做為其科研的路線,使用機器學習甚至深度學習的方法來個別改善部分功能。其中蠻酷的獲得是知道Pubmed Labs,裡面有很多測試功能,另外如Pubtator, LitVar等工具,都可以用來改善許多在註解資料和變異的效率。在其演講中還有提到所謂的文獻搜索的概念,可能之後會閱讀他提到的文獻再做分享,很重要的技巧但常常沒有刻意練習。

會議主講人Aaron von Hooser,來自PatientsLikeMe,其分享的題目:Building a Learning System that Helps Individuals to Thrive by Connecting Their Experiences and Goals with Molecular Measures of Health. 聽完他的分享才知道原來碳雲智能(iCarbonx)的DigitalMe計畫細節是什麼,PatientsLikeMe公司便是他們這計畫的其中一員,整個聯盟有Health Tell, SomoLogic等公司。他主要分享他們目前共收集約莫3000多人的抽血和相關生理數據,他們使用了蛋白體學的資料來分析相關的資訊來產生Disease Spectrum Score來幫助作一些疾病的預測或是診斷。

會議主講人Deborah L.Mcguinness,算是Ontology領域的開啟者,目前是Tetherless World Constellation的科學家,這次他分享的題目是Semantic Data Resources Enabling Science: Building, Using, and Maintaining Ontology-Enables Biology Data Resources,簡報裡的架構感覺慢慢他的研究框架,東西蠻多的,目前他主要在做CHEAR 項目,慢慢講其延伸到臨床指引的應用,其中蠻酷的是提到他們如何設計整個框架,把如糖尿病指引,差解成semantic usage的架構。


會議主講人David Astling,來自SomaLogic,分享其公司所開發的技術Somascan Array,可以用來快速檢測檢體中大約4368個蛋白質表現量,他們進一步整合成各種風險評估的工具,比如腎臟功能、肝臟功能、心臟疾病風險等等,他們主要的試驗都是在英國那邊所執行的,再由近一步的分析,來用部分的蛋白質來設計成各式各樣的panel


會議主講人Nicole A.Vasilevsky是美國奧勒岡健康與科學大學(Oregon Health & Science University)的教授,其專長在於發展生醫領域的ontology,其中HPO和最近的Monarch 資料庫,都有她參與的影子,這次他分享的是LOINC2HPO的項目,有對生醫相關的ontology有涉略,可以知道LOINC和HPO是兩個重要的詞庫,LOINC的全名是觀測指標標識符邏輯命名與編碼系統(Logical Observation Identifiers Names and Codes,LOINC), 其字彙語意是用於標識檢驗醫學及臨床觀測指標,此已經有多年且商業化的應用,假如要使用裡面的語意和字彙庫,就必須要授權,而HPO(Human Phenotype Ontology)則是最近幾年蠻熱門,其是用來對應人類表型的語意庫,LOINC2HPO顧名思義就是要讓兩者互相鏈結,將實驗技術或是臨床指標和這些臨床表型相互結合起來,進一部往輔助診斷的功效。

論文閱讀:Next-Generation Sequencing to Diagnose Suspected Genetic Disorders

這篇是閱讀Adams, D. R., & Eng, C. M. (2018). Next-Generation Sequencing to Diagnose Suspected Genetic Disorders. N Engl J Med, 379(14), 1353-1362. doi:10.1056/NEJMra1711801的摘要。

Clinical Next-Generation Sequencing as Diagnostic tool

臨床次世代定序的使用越來越頻繁,不論是在神經基因體學,或是在小兒及新生兒急重症中都有所立足點,隨者世界各國不斷推行的大型計畫,未來定序技術在臨床上的服務會越來越重要。

美國:
Collins FS, Varmus H. A new initiative on precision medicine. N Engl J Med 2015;372:793-5.
中國:
Cyranoski D. China embraces preci- sion medicine on a massive scale. Nature 2016;529:9-10.

目前已有部分關於如何將基因資訊整合入臨床中的實務性建議和指引,畢竟在臨床導入的技術,需要嚴謹和品管的控制,以及可驗證性。

Bowdin S, Gilbert A, Bedoukian E, et al. Recommendations for the integration of genomics into clinical practice. Genet Med 2016;18:1075-84.

Beck TF, Mullikin JC. Systematic eval- uation of Sanger validation of next-gener- ation sequencing variants. Clin Chem 2016;62:647-54.

目前在一篇684個受測者的研究中,其分別使用外顯子測序和Sanger定序來比較受測者的五組基因,兩種技術的差異性可以接近99.97%。這研究顯示出目前測序技術的準確度越來越可靠。臨床應用測序技術的方式可以針對特定幾組基因或是整個基因組來定序,針對不同表型來設計相伴隨的測序基因組合。表型的範圍可以很小,也可以很大,小如familial hypercholesterolemia的四個基因組合,大的則如複雜疾病的表型,可以超過1000個基因以上的組合。

如何將這些應用於臨床決策這件事,到目前還是研究的熱點所在,相關的生物資訊工具還待開發與完善之中。最基礎的定序用是可以辨識基因序列中的序列變異(variants),並且取得其跟各種疾病相關的風險關聯,這部分在美國的ACMG指引中有提出如何系統性地來針對基因序列變異來產出報告。

Kalia SS, Adelman K, Bale SJ, et al. Recommendations for reporting of sec- ondary findings in clinical exome and genome sequencing, 2016 update (ACMG SF v2.0): a policy statement of the Ameri- can College of Medical Genetics and Ge- nomics. Genet Med 2017;19:249-55.

Variant Classification

如何將取得的基因變異序列(variants)資訊進行分類,便成為下一個重要的議題,通常一個檢體的基因變異位點可以有上千個以上,如何有效的過濾、排序來提供臨床闡述就很重要。這過程每個實驗室會稍有點不同,加上如何註釋資訊、如何闡述每個變異對於其他基因的影響,這類型通常都需要變一點跟疾病強烈的關聯,而這通常都沒有的。

變異位點的特性可以用演化保守性、族群頻率分析、或是以其所在的蛋白質功能來歸納。在大型定序資料庫Genome Aggregation Database(gnomeAD)中有提供常見變異(Common Variants)和罕見變異(Rare Variants)。目前美國醫學遺傳學會有提供一個指引用來將變異分類成:pathogenic, likely pathogenic, likely benign, benign, 和variant of unknown significance等幾種歸類。

Richards S, Aziz N, Bale S, et al. Stan- dards and guidelines for the interpreta- tion of sequence variants: a joint consen- sus recommendation of the American College of Medical Genetics and Genom- ics and the Association for Molecular Pa- thology. Genet Med 2015;17:405-24.

在另一個重要的資料庫ClinVar中,還會將這些基因變異位點跟臨床表型連結在一起。算是更一進步把變異點跟已知道許多臨床表徵會結再一起,雖然其中會有許多重疊之處。當實際將次序導入臨床實務時,會隨之產生許多新的gene-disease關聯出現,其中偽關聯不可避免地出現,一些新的工具可以幫助我們將外部資料庫的案例匯集一起來減少偽關聯,如Gene- Matcher (https://genematcher.org/), DECIPHER (https://decipher.sanger.ac.uk/),  Phenome- Central (https://www.phenomecentral.org/) 。

MacArthur DG, Manolio TA, Dim- mock DP, et al. Guidelines for investigat- ing causality of sequence variants in hu-man disease. Nature 2014;508:469-76.

Diagnostic Rate and Stratedge

Implementation of Clinical Next Generation Sequencing
Reimbursement
Studies of Clinical Usefulness
Challenges and Opportunities
Health Person
Future directions

論文閱讀:Genome sequencing in the clinic: the past, present, and future of genomic medicine

這篇是閱讀Prokop, J. W., May, T., Strong, K., Bilinovich, S. M.,etc. (2018). Genome sequencing in the clinic: the past, present, and future of genomic medicine. Physiological Genomics, 50(8), 563-579. doi:10.1152/physiolgenomics.00046.2018的整理。

screenshot.png

最近有蠻多篇關於基因體於臨床的應用之文獻回顧,這算是其中一篇,由密西哥州立大學(Michigan State University)的教授Jeremy W. Prokop所撰寫的,裡面整理了基因體相關進展的研究文獻,並且最後稍微論述了未來的方向性,算是篇四平八穩的文章,可以用來加深自己對於基因體相關研究脈絡的小地圖。第一張圖使用雙股螺旋DNA的圖來做時間軸,上面標識一些相關的發表和計畫。

文章分成三大部分,分別為過去、現在和未來。基因體在醫療中的應用可以稍微分成:
過去的部分分別為Road to personal medicine、Population Genomic and GWAS、Genotype to Phenotype: from Animal Models to Cells for Human Health、Clinical Sequencing and Impact on Patient Treatment。
現在:Current Cost of Sequencing、Assembly of Large Genomic Data Sets for Disease and Controls、From variant to function
未來:Where can sequencing Go?、Potential Issues and Conclusions for the future、

screenshot.png

國際視覺化會議 2018 IEEE VIS 德國柏林

螢幕快照 2018-10-24 上午12.04.03
    這次趁特休的時間來參加IEEE VIS 2018的會議,擴展對於這資料視覺化領域的一些視野,這次的IEEE VIS是在德國柏林舉辦,時間從10/21-26號,IEEE VIS是由多個不同跟視覺化相關的組織一起聯合組成的,主要有三大IEEE類別的會議:Visual Analytics in Science and Technology(VAST)、IEEE Information Visualization(InfoVis)、IEEE Scientific Visualization(SciVis)和部份小型的工作訪組成LDAV, BELIV, Workshop on VIusalization for the Digital Humanities、Visualization for Communication, Data Systems for Interactive Analysis, BioVis,VisGuide, Visualization for AI Explainability(VISxAI)等等。

會議地點在德國柏林最大的會展中心Estrel舉辦,地點就在車站旁邊,非常方便可以抵達。今年還有北京大學和360實驗室的人出席,還搜到他們的文章,覺得驚奇,不過整體來說參與的人主要是以歐洲和美國的研究室為主,比較少亞洲面孔。

IEEE VIS 會議今年還有所謂的VisBuddies的計畫,參加的人會被分組,裡面有資深的PI和菜鳥,我這次就跟Smith College的Jordan Crouser,Indiana University的Khairi Reda分到同一組,第一天抵達的晚上就用Slack揪團小聚了一下,當天還有Northeast University的Michelle Borkin教授一起,感覺很特別,兩個人分享了自己參加IEEE VIS的心得、學術歷程的挫折(這部分很私人,出乎我的意料,Jordan Crouser分享自己申請PhD全部摃龜的故事,Michelle Borkin則是分享自己一路哈佛上來,但在找教職的路上,有一段時間都是失業狀態的),除此之外,還分享了許多關於認識自己和生涯規劃的想法,這部分收穫良多,也讓我們這些第一次參加的人能格外感覺到被提攜的感覺。假如有興趣參加的人,一定要報名VisBuddies,可以讓你有機會認識其他的PI,建立一些新的關係和聚餐的機會。

這次終於聽到了University of Utah團隊的演講,目前來說,他們團隊體系在視覺化領域算是很重要的角色,他們在IEEE VIS主持了Workshop on Visualization for the digital humanities這工作訪的開場演講是由目前算是當家的Miriah Meyer教授所分享,這場演講非常精彩,用字遣詞根本就是在談論一篇論文等級了,從分享其跟人文科別教授的合作經驗來談談他對於目前視覺化項目的開展方法,帶入他這次學生們的博士研究,可以說是深入淺出,又趁機提白了自己的學生。其對於視覺化的設計非常精緻,從跟合作對象的訪談到其中的實驗和探索過程,他的論點偏向於整個設計的過程其實是視覺化學者們最重要的貢獻所在,而非單純是最後的工具產出。

這次會議其中BioVis Challenge算是此行主要的目的,除了一賭哈佛大學生資視覺化教授Nils Gehlenborg的風采,他們探討的議題也相當有趣視覺化百萬人類的生醫資料為遭遇到的挑戰

會議的過程在於分組討論這個主題,並且希望每個人都能參與其中,最後產出一篇觀點論文(position paper),這形式的活動還蠻刺激的。最後分組中,跟來自愛丁堡納皮爾大學的Jessie Kennedy、西北太平洋國家實驗室的電腦科學家Joseph Cottam加拿大卡里嘉爾大學的Søren Knudsen一起探討關於視覺化百萬人生醫資料時候,對於對象多元會遭遇的挑戰,或是該如何去思考這樣的問題,經過這次經驗會發覺對於英文用字遣詞的能力非常重要,如何能精簡的傳達想法或是概括都一門技藝,看來這類能力唯有對於某個領域主題的豐富閱讀和書寫才有辦法達成。

另一個有趣的議程Visualization for AI explainability(Vis x AI)裡面探討的是如何用視覺化來讓機器學習或是深度學習的參數校條過程更加地讓人類可以參與,開場請到在google brain工作的Been Kim來分享concept activation vector的應用,有點高深,除此之外,在其他演講中,我自己覺得蠻受用的是grand tour的概念,原來有這種方式來讓多變量資料的分析資料進行投影和旋轉,來更好的展示整個資料的結構和分佈,而且是1985年就提出的方法。

這次參加IEEE VIS對於整個視覺化領域有更寬廣和多元的理解,才知道我之前在實作複雜視覺化時所遭遇的種種問題,很多都是某個次分領域探討的主題,比如當數據量過大時,視覺化分析的過程往往會遇到時間延遲的阻礙,因為你無法承受這種每個操作有10秒延遲的體驗,那這個主題便在Data systems for interactive analysis中探討到,他們把這問題拆解成:資料庫和視覺化體系兩者串接的問題,提出的一種做法是Progressive analysis的概念,搭配上所謂的progressive database management system,換句話說,這個資料庫在前端視覺化呈現的過程,不是一次到位,而是漸進式的。(這概念蠻有趣的,但實踐上應該是非持高昂代價的)。另外,如對於前端視覺化的技能提升,其中一場Everything Except the Chart也幫助許多,直接點出了D3.js在其中的效能問題,推薦了可行的解法。

這裡有另一個參與今年IEEE VIS 2018的視覺化設計師Zheng-yan Yu 其也有撰文關係網絡可視化提到今年參與的經驗

書本閱讀: Regenesis – How synthetic biology will reinvent Nature and Ourselves 創生:合成生物學如何重新發明生命和我們

「regenesis how synthetic biology will reinvent nature and ourselves」的圖片搜尋結果

這本書Regenesis: How synthetic biology will reinvent Nature and Ourselves(目前台灣還沒有中文翻譯,自己亂翻成 創生:合成生物學如何重新發明生命和我們),由遺傳學教授喬治.丘奇(Gorge Church)和科普作家艾德瑞奇斯(Ed Regis)所寫,在2012年出版。

喬治.邱奇(George Church)教授本身是哈佛大學和麻省理工學院合聘教授,開啟多個重要的科學領域包含基因定序技術、合成生物學、基因編輯等,且參與多個醫療新創公司的開辦(Knome/PierianDx、AbVitro/Juno、Veritas Genetics),合成生物學相關的公司(Joule、Gen9、Editas、Egenesis、enEvolv、WarpDrive)。另外,也推動了美國基因體計畫、BRAIN initiative。這邊有段最近George Church教授接受訪問(https://www.youtube.com/watch?v=4V4Am5vo__g),因其在深圳建立的George Church Research Institute,與華大基因合作開發使用基因編輯來發展移植器官的計畫。

這本書的編排是以地質編年史展開,而因此讓大綱就充滿一堆“艱澀”的字彙,整本書將各種合成生物學領域映射到生物在地球上演進的方向。

以下是這本書的各張標題,一眼望去,硬派風格!

第一章 38億年前,冥古代晚期: 有機物和無機物的邊界
第二章 35億年前, 太古宙: 閱讀最古老的生物和生命的軟體
第三章 5億年前, 寒武紀: 鏡像的世界和多樣性的爆發,演化可以多快發生和如何達到多樣性
第四章 3.6億年前,石炭紀: 最好的石油替代品便是石油
第五章 6千萬年前,古近紀 :哺乳類的免疫系統,如何用基因工程解決醫療危機
第六章 300萬年前,更新世: 設計和建造絕種生物
第七章 1萬年前, 新石器時代:工業革命、農業革命和合成基因學。BioFab宣言
第八章 1百年前, 人類世: 第三次工業革命 iGEM
第九章 近期, 全新世: 從個人基因組到永和人類的組合
第十章 以終為始。超級人類、泛物種時代:社會的風險

有機與無機分子的差異

邱奇教授在開頭,從化學界某一時期的爭論起手,在19世紀初期,化學家把分子以無機和有機化分,有機物只能來自於具有生命的生物,兩者壁壘分明,直到化學家弗里德里希·維勒(Friedrich Wöhler)在1828年發表論文,能從無機物中合成出有機物尿素,從此對於化學分子的生命力(vitalism)區分,開始出現邊界模糊的問題,討論何謂化學分子的生命力(vitalism),那假如我們開始能自己合成去氧核醣核酸,或是能合成出有類似去氧核醣核酸複製行為的功能呢?或是我們將化學分子的編排稍微倒置,把左旋換成右旋呢?在這邊邱奇教授提出幾個有趣的問題:

  •  Wohler’s synthesis of urea was arguably the first great challenge to vitalism
  • The second challenge to vitalism concerns the phenomenon of the handedness of molecules
  • challenge to vitalism is to find out whether those long, precise sequences could arise spontaneously and possess the functions of life such as catalysis
  • whether a fully synthetic chemical network could make a copy of itself and evolve
  • whether consciousness can arise synthetically

便宜的DNA生產技術的演進

用巨觀的思維來闡述新科學
生物版的巨流和,可以窺見當代前言科學家對於未來生醫領域的研究想法,大史觀對應生物的提問,從底層分子的生命,探討到演化速度,最終改變對人類的想法

爬梳合成生物學的六大方向

George Church教授對於未來合成生物學的主要方向簡單分成六個,並且提到其中的重要科學家:
1. 重組基因用來作為代謝工程的工具
美國工程院士基林斯教授(Jay. D. Keasling)
2. 仿生生物學(Bio-inspired and bio-mimetic)
哈佛大學史蒂芬班納教授(Steven Benner)
麻省理工大學羅伯特.蘭格(Bob Langer)
3. 工程導向的生物元件(Engineering-inspired biobricks)
前麻省理工大學教授Tom Knight
4. 探討生物的演化、生命的起源
伯克利大學化學系教授John Arnold
德州大學合成生物學教授Andrew Ellington
哈佛大學教授喬治.丘奇(George Church)
5. 生醫產業化及工具化
哈佛大學偉斯研究所(the Wyss Institute)
6. 基因工程
克雷格-凡特研究機構(JCVI)
霍華德休斯醫學研究(HHMI)

臨床醫療學習分享: 使用google doc內嵌slide,多元紀錄模式

開始臨床工作一週,的確是手忙腳亂,提高效率來管理眾多病人資訊和抽空學習新知變成一種挑戰,佩服那些在臨床職場邊工作邊研究的前輩,意志力相當驚人。

這邊嘗試建立一套在臨床工作的學習模式,嘗試邊學邊做slide的方式來實現,相信蠻多人也是邊工作邊學習的,最好的學習也許就是邊學邊想如何分享給別人吧!

發現wordpress只能embed google doc,針對google slide還沒有支援,這邊找到的偷吃步,是使用google doc中鑲嵌google slide的模式,偷渡到wordpress之中!待完善之中!