Pubmed幾乎是每個做生醫相關研究的人員都會查詢的資料庫,是全世界最大量醫學文獻的地方,如何整理這個資料庫便是美國國家醫學圖書館最大的問題。
最早在1954年開始,第一個官方的內部指引Subject Heading Authority List公布了,歷經美國國家醫學圖書館幾十年的時間發展了一套文獻索引的方式,這就是所謂的MeSH(Medical Subject Headings),是一套非常細緻的索引系統,目的是幫每一篇論文能做更精緻的標注,在查詢時可以更加的精準,從1963年Medical Subject Headings包含了5700個標目,到2015年已經擴增到27455個。
基本上MeSH記錄由三部分組成:Descriptors, Qualifiers, Supplementary Concept Records
Descritptors
這類型的MeSH紀錄中是最重要的,總共有四大類,除了第三類以外的Descriptors字彙都可以形成樹狀關係。這四類分別是:
- Main Headings:最重要的分類字彙
- Publication Characteristics:為文章類型的標注
- Check Tags:經過幾次的修改,許多check tags慢慢被納入到Main Headings的樹狀結構中
- Geographics: 主要用來區別地理資訊的字彙
Qualifiers
又被稱作subheading,用來輔助Descriptors的敘述,共有82個主題的Qualifiers,用來補充或是精準heading下面的概念。
Supplementary Concept Records
又叫做Supplementary Chemical Records(SCRS),主要用來索引化學分子、藥物和罕見疾病。
最近美國國家醫學圖書館跟進web 3.0 所謂的linkded data的資料儲存機制,將MeSH的資料已RDF的資料型態公布,甚至也提供自然語言處理的工具MeSH on Demand,自動辨識你文獻中跟MeSH相關的字串 。真的是非常厲害!對於想要處理醫學文獻的自然語言處理相關分析是很大的利器!