Pubmed E-utilities API 使用規範

screenshot.png

NCBI所掌管的Pubmed已經是全世界最大的醫療資料庫,近年來提供很多直接用程式串接的工具,但很重要的地方便是他們對於request的規範,仔細遵守下才可以避免被鎖IP的處置,下面是這個最常用的Pubmed E-utilities的相關規定

主要有五大重點:
第一個:使用https://eutils.ncbi.nlm.nih.gov/entrez/eutils/作為base url
因為Pubmed內部管理負載平衡和使用效能的考慮,把不同服務的url都乾淨的分開,雖然你也可以直接用www.ncbi.nlm.gov開頭的url來爬,但這樣是會關注的。

第二個:在使用E-utility的URL request頻率規範
基本速限是每秒3個requests以下,在週末和平日的晚上九點到凌晨五點希望避開大量使用,假如是你開發的工具會很長期的使用,那麼可以跟NCBI註冊你的工具名稱和email,關於IP被禁的問題,可以禮貌地寄信給eutilities@ncbi.nlm.nih.gov,跟他們說明你的狀況,和IP。

第三個:增加每次request的內容量
盡量減少request的頻率,增加單次request的內容量,這樣可以比較有效的提高謝率,尤其是在使用EFetch這種下載全文資料或是蛋白質序列等的工具。

第四個:注意資料版權的問題
在使用E-utilities來開發產品的時候,要注意NCBI對於版權等資訊的規範,可以點選這邊來看細節,另外,關於在Pubmed查到的部分abstract內容也是受到美國或是其他國家著作權法的保護的。

第五個:注意特殊字符
在使用E-utilities時,會用完整的url來索取資源,這時候要注意特殊的字符和全半形的問題。

發表迴響

在下方填入你的資料或按右方圖示以社群網站登入:

WordPress.com Logo

您的留言將使用 WordPress.com 帳號。 登出 / 變更 )

Twitter picture

您的留言將使用 Twitter 帳號。 登出 / 變更 )

Facebook照片

您的留言將使用 Facebook 帳號。 登出 / 變更 )

Google+ photo

您的留言將使用 Google+ 帳號。 登出 / 變更 )

連結到 %s