Tophat:序列拼圖工具

Tophat介紹與語法

介紹

Tophat是一款可以用來拼基因序列的生資工具,其最重要的特色就是其演算法對於mRNA的splicing junction有比較好的辨識能力。

由約翰霍普金斯大學的Daehwan Kim 和 Steven Salzberg ( Center for Computational Biology)以及 華盛頓大學的Cole Trapnell 教授( Genome Sciences Department ).  在約翰霍普金斯大學有這款工具的詳細指南, 這工具主要是在linux下的command line執行。

原理

這邊介紹此工具在比對時的原理,可以幫助思考在設計流程的細節,以下是圖解:

 

 

螢幕快照 2015-12-07 上午11.56.55
Chapter 4 Aligning Reads to Reference, RNA-seq Data Analysis: A Practical Approach

基本運作原理:

  • 第一步:Optimal transcriptome alignment
  • 第二步Genome alignment
  • 第三步:Spliced alignment

在Paired-end的RNAseq裡面:

  • 假如有Annotation的話,其會先利用bowtie2 genome index 由gtf/gff file組成transcript sequences,先將Reads針對其來ALIGNMENTS
  • 當reads對不到Transcripts時,其會跟genome mapping
  • 此時會將ummaped reads分成小片段在去對genome mapping,此時其會根據我們設定的最大intron size來跑分析,此時tophat會同時尋找indel或是fusion break point
  • 基因序列在可能splicing site的地方會被index且concatenate,此時沒有mapped到哦會被放在junction flanking index
  • Segment alignments 被stitch起來行成完整的alignment
  • 當multiple alignment發生時,tophat會計算其分別的alignment score

 

語法

tophat.001

 

發表迴響

在下方填入你的資料或按右方圖示以社群網站登入:

WordPress.com 標誌

您的留言將使用 WordPress.com 帳號。 登出 /  變更 )

Facebook照片

您的留言將使用 Facebook 帳號。 登出 /  變更 )

連結到 %s