想成為一位計算生物學家嗎?

So you want to be a computational biologist?

作者

Mick Watson 來自英國羅斯林研究所( The Roslin Institute), 前身本來是愛丁堡大學動物遺傳研究所,著名的複製羊polly便是從那邊來的,其也是愛丁堡生物資訊研究的領頭人,那是愛丁堡基因體學術研究機構,負責提供次世代定序的分析訓練(Head of Bioinformatics at Edinburgh Genomics (http://genomics.ed.ac.uk).可以追蹤他的推特@BioMickWatson或是部落http://biomickwatson.wordpress.com/.

Nick Loman來自英國伯明罕大學微生物與感染所的獨立研究員,可以追蹤他的推特 @pathogenomenick以及部落格http://pathogenomics.bham.ac.uk/blog.

計算生物學家這個詞代表了好幾種角色於其中,包括資料分析、資料收集、資料庫的建立、統計學家、數學建模、生物資訊、軟體開發、ontologist等等,可以確定的是電腦已是現代生物研究不可或缺的一員,科學家常常被要求學習新的計算生物學技能或是了解新的術語。不管你是學生、教授或是想要往學術界發展,以下這些建議假如你有興趣的領域需要越來越多的計算分析,那麼將對你很有用!

找尋你的目標並且挑選合適的方法
Understand your goals and choose appropriate methods

做好計算生物學研究的關鍵是挑選並且使用好的軟件。在你可以完美詮釋軟體分析的結果前,最好仔細去理解軟體背後的原理。就好像你不會在做PCR時,卻不理解他背後的原理一樣。所以在使用電腦軟體分析資料也是同樣的道理。去理解所使用計算機軟體背後分析的原理和演算法。但這不是要你去把軟體裡每一行程式碼都瞭解到一清二楚!同常分析軟體都會有固定的演算法針對某一種資料類型,舉例來說,在de novo assembly,Overlap-Layout-Consensus assembler演算法便是用來最佳化使得序列讀數可以長點,而Bruijn graph則是針對短read的運算。挑選適合的演算法和軟體會省掉你之後很大量的時間。

為你或是從別人那取得之程式碼設計一些“捕蟲器”
Set traps for your own and otehr people’s

你如何知道你的程式碼、軟體、分析流程到底有沒有問題呢?電腦會很開心地輸出結果來自任何怪異的輸入資料,並且沒有任何錯誤的訊息。建立一些小測試資料,這資料的分析結果是已知的,看看你自己的程式碼或是使用的軟體能不能作出一樣的答案。試者在你每個分析的資料都建立這樣的工作流程。double-check每一次的計算分析,並且思考是否是合理的結果。就像傳統生物實驗都會有positive和negative control.這在計算生物學裡的實驗室一樣的。

你是科學家,不是編程員
you’re a scientist, not a programmer

鑽牛角尖是成功的敵人。記住你是一位科學家,你研究水準來自於成果,而非程式碼的精美與否。即使你編碼的很完美、標注清楚且冗長,最後分析出錯誤的結論,這樣倒不如就使用基本的語法。必須說,一旦你確定你和新的演算法沒問題,再花時間使得程式碼的可讀性高一點。能多多活用生物知識,便要好好的把握住!

使用版本控制的軟體
Use verion control softward

版本控制可以幫助追蹤你修改的指令,同時維持不同版本的程式且可以跟別人一起分享。最使用版本控制的工具像是Git或是Subversion,也能讓你較快地發布新的編碼。另外,在編碼裡面寫好說明(README)檔案,這樣可以幫助未來的你回頭看看舊專案時比較了解你在做什麼。在你程序或是編碼腳本裡好好撰寫註解,這樣可以幫助你看懂自己在寫什麼。在發表研究時候,可以試試把分析使用的編碼也一起發表,這樣可以讓其他人能重複驗證你的分析結果。另外,維持一個數位實驗記錄簿在你分析任何資料的時候。像是程式碼儲存在Github中也是一個相當好的方式來維持你程式的雲端備份。

“指令管線炎”是一個嚴重的問題
Pipelineitis is a nasty disease

所謂的指令管線化(Pipeline)是指把一系列程序或是軟體的操作步驟以完整序列方式去執行。建立一套Pipeline是很棒的方式來執行很多重複的分析,和分享工作流程給他人。但這樣會強迫你把工作方式限縮成固定模式,有時候會降低你的創造性。所以最好不要太早把自己分析方式弄成Pipeline,當把這套分析方法確認是對的,才這麼做。同時要思考一下這工作流程需要弄成pipeline嗎?這真的能節省時間嗎?這樣的pipeline對於別人也有用嗎?假如這樣的分析方式只有你自己要用,那麼花費太多力氣整合成pipeline的意義就比較小,維持單純的程式碼腳本反而比較單純。

 

歐巴馬的思維架構
A
n obama frame of mind

沒錯!就是像歐巴馬一樣思考!身為一個計算生物學家,你必須要保持創造力,從現有的方法發展出全新的。保持冒險精神,隨時準備好失敗但不斷前進。另外,使用google來詢問同領域的其他人,可以幫助你更快地解決特定的問題。

幫助工作的利器
T
he right tool for the job

請適應UNIX/Linux環境下的指令操作(相對於我們傳統習慣的圖形介面)。他們是非常強大的工具,可以讓你對工具或是軟體的掌握更加全面,且能同步執行很多運算。大部分的生資軟體都設計成可以在comman line的環境下執行,另外,學習叢集電腦和如何同時執行不同共作。學習哪種語言不是最關鍵的問題,因為每種語言都有其強項,且大多數你都需要使用一種以上的語言來完成工作。

請記住使用流行的語言對你的幫助會比較大,因為其現有的小工具會很多,舉例來說,你可以去Bios* project看目前有哪些熱門專案(http://www.open-bio.org/wiki/Main_Page),像是微軟Excel除非很仔細地操作,否則不太適合作為生資的處理工具。使用test structured files或是SQL資料庫來儲存你的資料。最後請記得實時備份你的資料。

不管你遇到的問題多麼的艱難或是使用的方法多麼前端,世界上總是有人同時也想解決這樣的問題的,這邊有兩個很棒的網路資源可以多多使用像是BioStars(http://www.biostars.org/) 或是SEQanswer(http://www.biostars.org/) ,也可以追蹤特定計算生物學家的推特!
來個小小總結,有無數的網路資源可以學習,趕快提起勇氣安裝你第一個linux,你會發現這一切是很值得的!

翻譯自:Nature Biotechnology 31, 996–998 (2013) doi:10.1038/nbt.2740Published online 08 November 2013
(已取得翻譯授權碼:3738500240185)

華大基因 BGI 舉辦之第十屆國際基因組會議 ICG-10

ICG10.001

為何想去這會議

 認識華大基因這個組織,是在2013年的時候,參加台灣醫學年會時,蕭勝文醫師關於NIPT(Non Invasive Prenatal Test)的報告,講到Denis Lu利用次世代定序,從母親的血液中定序出胎兒完整的序列時,蕭醫師提到次世代定序技術的同時,提到華大基因跟世界定序機器大廠Illumina買了120多台機器,一躍成為全世界有最多定序機器的公司,從那時候開始對基因體以及華大引生出濃厚的興趣,在醫院裡常常會問所跟的主治醫師這方面的訊息,但往往主治們不太在乎這個,或是不了解可能會對臨床的影響,但可以利用次世代定序從母親的血液中定序出胎兒完整的序列,這概念在我腦海中衝擊很大,便從此開始關注華大基因的新聞。很想親眼看看這個組織是如何做到的。

在出發前其實聽聞很多關於華大近期的消息,比如高層紛紛離開,想說這一趟會不會因此不值得,畢竟要投資時間在未來會出現的事物上,但百聞不如一見,就衝動地註冊了第十屆國際基因組會議ICG-10,會議主辦單位就是華大基因,地點在深圳最繁榮的福田區會展中心的香格里拉國際大酒店,旁邊咖啡店的一杯黑咖啡要價新台幣100多元,會議就舉辦在酒店裡的宴客廳,氣氛和場地都很舒適,最重要的是有免費的wifi。

關於深圳

會議所在地:深圳,其實是另一個吸引我去參加的原因,很想看看這城市的面貌,聽聞其在電子零件的製造上的地位被稱作世界工廠,實際抵達的時候,是能感受到深圳這個城市非常的具有活力,商業氣氛濃厚,但商業操作沒到很細緻的階段,整體給人一種擁擠,四處商場林立的印象,在吃晚飯的時候,仔細計算一家連鎖中式快餐店,同樣大小的店面在台灣大概只需要三位工作人員,而這邊內場外場工作人員合計竟高達15位,不難想像這邊人口密集的程度,空氣污染是另一件很嚴重的事情,尤其是去到華強北的電子商場,人滿為患,販售的電子零件數量非常多,賣手機個是零件都可以獨自成為一個櫃,有專賣插頭座、專賣螢幕保護貼等等,但賣場擁擠,眼睛因空氣刺激感到不舒服,路邊就有在賣便宜的四軸飛行器等新潮玩意,(可惜沒有太多時間去觀察,主要都花在會議的聆聽上),但幾個捷運站的會展中心,格局是世界級的,高樓大廈的建築很壯觀,空間上的規劃可以感受到是有思考過的,巨大的商業賣場消費人口驚人,另一方面,地區性消費金額差異很大,像會展中心的飲食消費就如同歐美國家,不算便宜。

會議內容

      議程從10/22到25總共四天,上午的演講是plenary agenda,所以會集中在大會議廳,下午則是同步有三到五個同步議程,主題有從特別講題(國際組織廣告、研討會宣傳、華大產品發佈、華大新合作案發布、基因相關研究案的宣傳、基因定序機器或演算法相關公司或創辦人講題)、雲端運算與基因體分析、癌症、臨床基因定序、講者有很大一部分是跟華大基因有合作關係的教授,大概30%左右的講題不太吸引人或是不精彩,有時得很努力地擠才知道要寫些什麼筆記。其中在10/24下午有安排參觀華大基因與中國基因庫的行程,主要就是搭車過去中國基因庫的施工現場和鹽田華大總部,不過大抵看到華大總部的“軍備庫”和未來中國基因庫的藍圖。中午大會有提供簡單像是三明治或米飯便當(搶不太到便當),且餐點發放的地方就是各家廠商進駐點,從Nature編輯群到各定序大廠或應用廠商,為數不多。

心得綱要

     這次會議的收穫主要有幾項:
  1.      對於華大基因未來走向與組織的了解
    (B10K、 法醫鑑定、Revolocity™ Sequencing System、BGISEQ-500、BGI online)
  2.      基因定序技術目前趨勢
    (BioNano、PacioBio、Complete Genomic、10xGenomics)
  3.      癌症基因體學研究趨勢
    (尤其利用single cell analysis在解釋cancer stem cell stemness表觀遺傳學變化的概念)
  4.      中國目前基因體學研究的氛圍(其實,少部分有能力做基因體分析,但少數華大合作的案子蠻不錯)
  5.      中國在個人雲段基因體的商業氛圍和前景
    (阿里雲、Intel、華大、GeneDocK、Seven Bridge Genomics(美國)、Data4cure)
  6.      基因體資料在倫理上的問題以及台灣基因庫的問題
  7.      加拿大、新加坡、北歐、英國的代謝體或是資料庫的趨勢
  8.      基因體在臨床上的整合問題(其實各國都有鴻溝存在)
 

生醫創業家要思考的幾件事

作者:Alan Walton1:general partner at Oxford Ventures(e-mail: awalton@oxbio.com).

在你一無反顧開始創業前要思考的

什麼是生醫創業家精神(bioentrepreneur)?

大多數我們對於創業家的印象來自於我們所遇到的人,說說我自己的經驗好了,記得我第一次遇到一位承認自己是創業家的人是在20幾年前於美國俄亥俄州克理夫蘭網球俱樂部時,在網球俱樂部中有兩個對手常常會在比賽中不守規矩,因為習慣於問問打網球的對手他們的職業,這兩位一位是醫學生,另一位則稱自己為創業家。而我就問他現在正在做些什麼呢?他說他正在“休息”等待下一次創業,那時我心想他會不會是跟黑手黨(Mafia)有關。

當我成為一名創業家時,常常會遇到其他的創業家。這些人最多的特質就是他們通常都很相信自已最終命運(de facto)會成功。其中,我許多的朋友放棄他們在大型企業高薪的工作打算自己出來創業並且靠自己累積財富。遺憾地大多數這些人賣掉他們的子、借用孩子大學教育基金、直到剩下小豬撲滿的錢而徒勞無功,更別提當初他們的夢想。一位我認識的創投家用一句話總結這樣的特質:「大多數的創業家是騙子或是瘋子」,可以確定的是他們普遍高估他們可以達到夢想的實際能力。

但假如你已經下定決定要創業或是挑戰你的夢想,那麼唯一可以糾正你的就是你實行過程中的真實生命體驗。我個人在行銷生醫專利發明、募資和觀禮公司的經驗,和關於一位理想生技創業家需具備的條件或許可以讓你用來評估你是否適合這樣的工作。

市場變化

在1980年代早期,許多生技公司的創業者都是源自於學術單位,因為他們是唯一知道什麼是生物科技的人。他們領者低薪在資源匱乏下努力募資,並且擁有他們創立的公司很大一部分的股權。

這時代背景下的生技創業家通常是商業投資者很好的標的。在1980時,我記得我第一次參與生技商業會議。我跟一位年輕的助理教授坐在同一個午餐桌,他旁邊坐了一位投資者(“finder”)聲稱手頭有很多現金。他對那位年輕的助理教授說:『我願意給你2-3百萬美元成立任何一家公司奠基在你學術研究成果上,只要公司的名稱有”基因“或是”生技“兩個字』。

   雖然這種天上掉下來式的投資方式大多是場騙局,實際上商業投資者多是希望在前期在公開上市前能用越少資金投入越好,並且盡快公開上市,把市場資金匯聚後快速把投資價值拉高。在那個時代創投資金的投資回報可以在三年達到五到十倍之多,以我之前的案子為例, 初期投資者在University Genetics (UGEN)投下6萬美金在五年後回報360萬美金。這樣的投資回報率在近年來大概只會發生在最近的網路公司。不意外地,這些早期資金不足的生技公司大多沒有生存下來。在1983年,少於30%的生技公司能在初期市場募資下回報風險投資的初期投入,但到了1992年,這比率上升到超過90%。這些生存下來的公司也大多是有創投在後面提供資金。

歷經四分之一個世紀市場的洗禮,學術界已經瞭解到他們做為在創新領域的來源之價值。如今他們已經可以面對面各種不同的市場狀況。對比於在1980早期,那時候的教授必須要離開學術界才能領導生技公司。現在你可以留在原本學術界的位子並且將技術授權(out-license)出去。這基本上對教授們在領導其創立的生技公司上沒有風險。在財務上,我還看過一些案子教授要求公司必須保有他們20%或是更高未稀釋股權不管第幾輪募資,雖然還沒看過實際上創投以這樣條件入股的。

更進一步的,許多教授或是研究人員成為像是1980年代早期的”finders“,非常積極在找尋市場機會。幾年前一位教授找我並且跟我說一個新科技創新的想法,且只是個非常前期的想法。我問他假如這科技最後研發不出來的話公司會怎麼樣,他回答:『喔,那我們會讓他到公開市場募資!』

募資上市

募資這件事絕對是生技公司中對於創業家、專業經理人或是創新者最大的考驗。在我的例子中,我放棄持有比較大的股權以保證初期公司在比較資金充足的狀況。在我離開終身職教授職位主持一家生技公司且獲得Allen&Company 26億美元研發上的資金後,第一天上班時迎接我新職位的消息便是市場不景氣,資金暫緩提供。歡迎來到真實的商業世界!!

就像其他創業家想盡辦法讓他們的公司上市,我和Bill Miles跑遍各地去找尋任何我所能找到的投資者去籌措創業的資金。我們大概在三個月裡面安排了超過兩百場一對一與可能投資人間得會面。那些沒有經歷過手頭資金只剩下一個月的人可能無法成為真正合格的創業家。其中最快樂的一天便是我們成功讓University Genetic,Inc(UGEN)上市,然後終於可以不用讓我家人繼續吃糟糕的伙食。

當你成功上市後你才能真正理解到儘管你如何努力的跟你的投資人和市場解釋,他們還是不太知道你們公司在做什麼。惠普投資銀行的Stelios Papadopoulos常常就將市場投資生技公司的行為常常就是在買樂透,因為他們不清楚自己投資的內容是什麼。舉例而言,我常常定期就會去跟我的投資人說明我們公司正在做什麼。儘管我非常努力且這樣經過了四年。有一天我的技術研發總監走進我的辦公室說我的其中一個投資者打電話來。電話裡是一個年長的婦女說他的貓死掉了,身為我們的投資者,她知道我們會繁殖動物、分裂胚胎、和基因轉殖等等,她用很請求的口吻說我們能否幫他們複製她一直保存在冰箱的死貓。

經營管理

開始成為創投社群的一份子後,常常聽到我的合夥人強調“管理、管理還是管理”的重要性。這我相信到今日依舊是創投的不變準則(dogma)。其中,創投的策略便是會派出管理人才參與其投資的早期新創公司的經營。慣例上,這些創投的管理人才都是從製藥業挖角來的人才。為了吸引這些原本在企業裡的高階人才進入創投工作,他們一般都會給予非常高的薪水和薪水獎勵,且不會要求他們也拿出錢來投資這公司。依據我的經驗,這些“厲害”的管理人才通常要花費大概一年到一年半才能清楚公司的技術實際上在做什麼。在The Venture Capital Journal中的期刊還談到這些高科技公司通常從新創團隊到上市前要經歷3.5個CEO。常常有人調侃這些創投的成功到底是選到了對的CEO還是他們在公司出現問題時開除CEO的能力。

在經營實務方面,一個成功的生技公司必須要有兩種技能的人才,第一種是找到可以成功推動公司的創業家,另一種則是能成功管理年輕公司的管理者。在我觀點下,在美國只有不超過半打的優秀生技創業家以及大約一打的“明星”管理人才。雖然找到優秀的人才對於大多數的創投來說是不容易的,但對於創投來說他們有一些優勢。第一點,他們可以選擇幫公司設計技術平台和策略,第二點,他們有較佳的財務槓桿,最後,創投不用面對說要開除創業家不適任公司這件事情。

理想的生技創業家

假如你還在閱讀這篇文章的話,代表你真的蠻想成為一位生技創業家的。我從我的經驗中提出六點是一位成功生技創業家必須具有的條件,你可以用來評估一下你自己:

1.富有強勢領導魅力且能口條清楚說明未來的計畫

沒有個人魅力及領導力的話其實是不容易吸引投資者的眼光和資金的投入,口齒清楚地說明公司的計畫也是重要的,畢竟有一天你要站在華爾街上個群中說明你的上市計劃。

2.是個非常技巧卓越的管理者

我們常常聽聞優秀的創業家或是投資者組建的團隊人才不一定是最優異的,因為保有團隊的最佳管理,相反地,一群才華洋溢的團隊常常是不好管理的。很明顯地,團隊合作技能是重要的。我們常常拒絕很多公司裏頭創立者是自我良好不易合作的人。

3.擁有此領域的關鍵知識

這是我最喜歡的一項特質。相對於公司的管理是相對容易調整的,但技術研發能力卻是不容易的。因此,近年來優秀的管理者通常有良好的技術背景且保握住公司的關鍵技術。

4.必須活力充沛且自我驅動力十足

我想我們都很羨慕那些能每週工作一百小時的人、午餐時慢跑五公里永遠精力充沛的人。這是非常清楚的創業家或是管理人特質。往往創業家都必須承擔來自投資方的高壓力。在這種高度壓力下,很多人往往會因此走偏門,修改產品報告或是製造假的銷售數據等等,很多創業家最後進入精神療養所(Minimum Security Facility)因為精神耗弱。

5.擁有良好的領導能力

在我們知道的很多領導技能中,很難說哪種領導技能是創業家最需要的。至少像是樂隊指揮(impresario)的角色多少接近一點創業家扮演的角色,在我面試許多CE0s可能人選時,我最常犯做錯的就是在與那些有顧問背景的人,他們常常在面試時令人感覺良好,主要是他們知道我想要聽什麼,但他們常常缺乏實務經驗。

6.擁有良好的過去紀錄

過去的成功不代表未來的成功,但至少是個不錯的參考,尤其是與過去有一起工作過的夥伴。有一件很重要的實情就是在一個領域的成功往往不是在另一個領域成功的需要條件。但至少這些優良記錄在募資的時候會比較順利。

文章翻譯自Alan Walton, Some Thoughs on BioentrepreneurshipsNature Biotechnology ,1998, copyright to Nature Publish Group, License Number:3724610499481  link

Introduction to Microarray

Affymetrix microarray平台是源於1980末期由Stephen Fodor生化博士領導的團隊所開發出來的,主要是利用半導體製程結合化學技術來將DNA或是mRNA以維陣列地方式形成晶片,來進行一次性大量基因表現的量測。10年一片microarray晶片要快十萬塊台幣折合3000多美元,如今一片大約低於一萬元且一次檢測的數量更多,彰顯科技進步的速度有多快,如今次世代定序出來後,microarray的聲勢便如日暮西山般的感覺。

關於microarray最重要的概念就是probes、probesets,而probes就是用來結合特定mRNA,相對於其他的microarray,affymetrix microarray的probe為25-base long oligonucleotides,而一組probesets由11個能針對特定mRNA transcripts結合的probes。其中設計上最重要的問題就是probe對於single transcripts的特異性,衍伸出後面很多分析上要知道的預設。

Reference:Willem Talloen and Hinrich G√∂hlmann, Gene Expression Studies Using Affymetrix Microarrays,CRC 2009

Bioconductor:基因體學研究的好幫手(一)

什麼是Bioconductor?

簡單來說,Bioconductor是一個含有936個R語言packeges的開源軟體平台,開始與2001年,其原始開發團隊由Robert Gentlemen領軍,由美國的Fred Hutchinson Cancer Research center領頭發展,成立的目的是為了提供高通量基因體學研究資料更好的分析工具,相對於R的發展開源且沒有任何資金贊助,bioconductor其實是一個有接受NIH資助的計畫,目的便是發展直接處理高通量資料的工具。

所以假如你是一個生物領域的研究人員,那麼一定不能不知道它,雖然目前市面上有很多商業軟體,但此工具通常會有最新資料處理的工具,像最近火紅的NGS資料,就常常需要依靠它。

繼續閱讀 “Bioconductor:基因體學研究的好幫手(一)"

關於飲食

總覺得吃對一個人來說莫名的重要,尤其是進食這個過程對於疲憊心靈的補償效果

就算不是在很飢餓的狀態下,看到美食頻道的精彩料理,依舊會引起內心中的一絲絲漣漪

常在想為何很累的時候,不能就隨便吃個什麼就結束這一回合

往往在回到家前,無法自拔的開始搜尋能令人身心滿足的食物

除了面段真實的食物影像那種令人心曠神怡的效果

閱讀關於食物的文字也有些許療癒的效果

就拿我最愛的蔡瀾部落格,很簡單的文字但書寫關於食物的描述

總是能旁徵博引,吃完一個食物能帶出幾十個能相提並論的美味

這種還能攝食、還有閒時看散文的時光真是寶貴啊!

為何我們需要prototyping?

Prototyping的目的主要是儘早的驗證我們對於產品設計或是其他觀念上的測試。而我們所設計的prototyping必須要能回答我們在設計過程中的問題,而通常在prototyping的過程我們會發現從沒想過的事情!所以在打造我們的prototyping前,要記得一個很重要的觀念:“我們想要用這個prototyping來回答什麼問題?”

在prototyping中有兩種prototyping:
CEP(Critical Experience Prototype)和CFP(Critical Function Prototype) ,其中CEP是為了測試及了解使用者情境所打造的,其著重的是氛圍和體驗上的模擬,另一方面,CFP則是強調其功能上要能達到其設計的木的,而不能僅止於外型或是操作模式的程度,這樣的分類可以提供思緒上比較清楚的脈絡去摸索!

工程思維角度

在不同訓練環境下成長,思維角度真的是很不同,醫學訓練本身帶有點歸納法的概念,以疾病來說,會有個大架構:流行病學=> 病生理機制 => 治療 ,但這架構是一個醫師接觸病人時的思維演進,換句話說,是一種從大到小的順序,但工程師則相反,其會從最小單位開始去分析區塊,再把他串起來,固定架構後,再添加個區域的骨肉。

單就工程師與醫師在做部落格的時候就有這種差異,工程師希望能文章架構管理清楚,時間序或是主題序排列,另一方面,醫師希望的是文章主題顯眼,且能把重要與不重要的文章以動態地在部落格中出現,雖然這種歸類有很多Bias,不過倒是蠻有趣的一種觀察。