在進行變異辨認(Variant calling)前的序列品質校正(Base Quality Recalibration)流程

這邊主要是在記錄使用GATK中的RNAseq Variant Calling流程中很關鍵的一步,便是校正位點的品質資訊(Recalibrate base quality scores),這點為何重要呢?因為本質上我們就是在區分資料中單一位點是否有差異,其中最大的“障礙”,就是定序過程中的錯誤所造成的偽變異,如何去估算並且調整每一個位點下的品質數值是否是真的,就會決定我們變異辨認結果的準確程度。簡單來說,可以把Recalibrate Base Quality Score想成是Variant Calling的關鍵資料前處理步驟

關於GATK在Base Quality Recalibration的部分有詳盡的影片可以參考

實務面上重要的關鍵點:

理解在Read Group中會被用來矯正的是以lane和library為單位來思考,所以在進行Read Group的標誌的時候,會決定這一步的Recalibrate到底正不正確
(可以參考這邊GATK的文章)

在做Quality Score Recalibration主要有幾個步驟:
1. Add/Replace Read Group
把Read 資料貼上正確的Read Group(有的人會在alignment的時候就貼上,也可以在alignment後的bam檔來進行處理)

2. Markduplicates/CreatIndex(Picard)/Split’n’Trim(GATK) (調整Read alignmnet和建索引)

  1. 使用BaseRecalibrator(GATK),計算出矯正Quality Score的表

  2. 使用PrintReads(GATK),將上一步計算出的表來調整原本的Bam file,並且輸出矯正過後的Bam檔

閱讀參考:
1. GATK官方文檔和說明
https://software.broadinstitute.org/gatk/documentation/article.php?id=3891
http://gatkforums.broadinstitute.org/gatk/discussion/2801/howto-recalibrate-base-quality-scores-run-bqsr

發表迴響

在下方填入你的資料或按右方圖示以社群網站登入:

WordPress.com 標誌

您的留言將使用 WordPress.com 帳號。 登出 /  變更 )

Facebook照片

您的留言將使用 Facebook 帳號。 登出 /  變更 )

連結到 %s