Jules Berman醫師的新書Data Simplification今年三月出版,是一本我覺得觀點和格局很大的書,幾個月前已把它放入閱讀清單,但最近才好好從第一張開始閱讀,在經歷“台灣醫學論文退稿事件”和多幾個月的閱歷,才慢慢懂作者抱持的論點和書名是如此的“出淤泥而不染”,看者這一兩年的商業書都在強調大數據、智能時代,搬出越複雜的數據和模型越讓人覺得書中談的東西很重要,反之,這本書開頭談的是數據的“簡化(simplification)”,要是沒有實際主持或是處理這些醫療大數據的人,可能無法懂這其中的高度,作者本身在醫療數據領域已經打滾很久,從MIT 主修數學和地球科學到後來成為病理科醫師,並且主持多項NIH關於醫療資訊的項目,不論是出版perl、python、ruby編程書到許多關於醫療數據的“大書”,想必這個主題是他三四十年來在美國醫療資訊歷練想提出來的觀點。
Make everything as simple as possible, but not simpler. _ Albert Einstein
本書開頭談為何simple這件事很重要,其中點出幾個觀察:
- 科學的本質是追求簡潔
- 生命系統某種層面也是在追求簡化,為達到穩定,演化是其中很明顯生命體間簡化的例子
- 如此研究論文的產量雖然不斷增加,但這幾年發現有很大部分都是無法被重複的
- 醫學研究所產生的數據量開始進入到另一個層次,讓研究變得異常複雜
- 臨床診斷的複雜度同時在升高,各式各樣新的診斷資訊不斷加入,發展複雜醫療資訊輔助系統的方向近幾年都以失敗告終,是否暗示重點在於簡化系統,而非逐漸繁繁複醫療資訊系統
這本書撰寫的風格非常嚴謹,寫作風格也是很簡潔,不會追求堆砌高深的字句,反而選字都很精準,閱讀起來很享受。其中的觀察,可以讓年輕的科學家比較能知道所謂的“知識爆炸”這件事情其實意味者我們遇到了所謂的complexity barrier,代表者我們需要改變原本在收集產生資料以及做研究的一些mind set。書中提到一個NIH失敗的案子,歷時十年,但最後案子效果不好(應該是內部人的觀點,從網路上查詢,都是比較“好”的一面,比較難看到真實的結果),叫做CaBIG,當初便是為了能讓癌症研究的所有成果資料可以共享,另一個失敗的案則是發生在英國NHS,同樣政府投資了大量的金錢,想要發展出一套複雜嚴謹的架構來處理醫療研究資料的共享問題。
這是一個很好的謹惕,追求簡潔是一個很重要的態度,雖然人們往往希望把東西搞得越複雜越好,因為看起來比較厲害,不過….這樣只是增加失敗機率。
書中提到另一個很棒的觀念是,處理資料的重點有兩個:
1. 在分析前簡化資料
2. 假設一開始的分析總是錯的,所以當下的分析處理目的是為了再次分析這筆資料前所奠定的基礎
關於巨量資料處理的原則
Berman J.J. Principles of big data: preparing, sharing, and analyzing complex information. Burlington, MA: Morgan Kaufmann; 2013.
美國NIH caBIG 項目
Kappelman L.A., McKeeman R., Lixuan Zhang L. Early warning signs of IT project failure: the dominant dozen. Inf Syst Manag. 2006;23:31–36.
Arquilla J. The Pentagon’s biggest boondoggles. The New York Times (Opinion Pages), March 12, 2011.
Van Pelt M. IT governance in federal project management. George Mason University, Fairfax, Virginia, December 8, 2009.
Brooks F.P. No silver bullet: essence and accidents of software engineering. Computer. 1987;20:10–19.
Basili V.R., Perricone B.T. Software errors and complexity: an empirical investigation. Commun ACM. 1984;27:556–563.
The ComputerWorld honors program case study. Available from: http://www.cwhonors.org/case_studies/NationalCancerInstitute.pdf [accessed 31.08.12].
An assessment of the impact of the NCI cancer Biomedical Informatics Grid (caBIG). Report of the Board of Scientific Advisors Ad Hoc Working Group, National Cancer Institute, March, 2011.
Komatsoulis GA. Program announcement to the CaBIG community. National Cancer Institute. https://cabig.nci.nih.gov/program_announcement [accessed 31.08.12].
Smith B. caBIG has another fundamental problem: it relies on “incoherent" messaging standard. Cancer Lett. 2011;37(16).
英國NHS health information system
Lohr S. Lessons from Britain’s health information technology fiasco. The New York Times, September 27, 2011.
Dismantling the NHS national programme for IT. Department of Health Media Centre Press Release, September 22, 2011. Available from: http://mediacentre.dh.gov.uk/2011/09/22/dismantling-the-nhs-national-programme-for-it/ [accessed 12.06.12].
Whittaker Z. UK’s delayed national health IT programme officially scrapped. ZDNet, September 22, 2011.
Robinson D, Paul Frosdick P, Briscoe E. HL7 Version 3: an impact assessment. NHS Information Authority, March 23, 2001.
關於如何發展好的系統來處理複雜問題
Leveson N.G. A new approach to system safety engineering. Self-published ebook; 2002.
Leveson N. Medical devices: the Therac-25. In: Leveson N., ed. Appendix A in ‘Safeware: system safety and computers’. Reading: Addison-Wesley; 1995.
Leveson NG. Engineering a safer world. System safety for the 21st century. Self-published book, 2009. Available from: http://sunnyday.mit.edu/book2.pdf [accessed 12.10.09].
Asimov I. Isaac Asimov Mulls “How do people get new ideas?" MIT Technology Review, October 20, 2014.