探索資料庫應用(六)MeSH (Medical Subject Headings):美國國家醫學圖書館架構的醫學詞彙索引

Pubmed幾乎是每個做生醫相關研究的人員都會查詢的資料庫,是全世界最大量醫學文獻的地方,如何整理這個資料庫便是美國國家醫學圖書館最大的問題。

  最早在1954年開始,第一個官方的內部指引Subject Heading Authority List公布了,歷經美國國家醫學圖書館幾十年的時間發展了一套文獻索引的方式,這就是所謂的MeSH(Medical Subject Headings),是一套非常細緻的索引系統,目的是幫每一篇論文能做更精緻的標注,在查詢時可以更加的精準,從1963年Medical Subject Headings包含了5700個標目,到2015年已經擴增到27455個。

基本上MeSH記錄由三部分組成:Descriptors, Qualifiers, Supplementary Concept Records

Descritptors

這類型的MeSH紀錄中是最重要的,總共有四大類,除了第三類以外的Descriptors字彙都可以形成樹狀關係。這四類分別是:

  1. Main Headings:最重要的分類字彙
  2. Publication Characteristics:為文章類型的標注
  3. Check Tags:經過幾次的修改,許多check tags慢慢被納入到Main Headings的樹狀結構中
  4. Geographics: 主要用來區別地理資訊的字彙

Qualifiers

又被稱作subheading,用來輔助Descriptors的敘述,共有82個主題的Qualifiers,用來補充或是精準heading下面的概念。

Supplementary Concept Records

又叫做Supplementary Chemical Records(SCRS),主要用來索引化學分子、藥物和罕見疾病。

各種MeSH資源影片

最近美國國家醫學圖書館跟進web 3.0 所謂的linkded data的資料儲存機制,將MeSH的資料已RDF的資料型態公布,甚至也提供自然語言處理的工具MeSH on Demand,自動辨識你文獻中跟MeSH相關的字串 。真的是非常厲害!對於想要處理醫學文獻的自然語言處理相關分析是很大的利器!

發表留言