RNAseq資料處理的步驟非常繁複，而第一步就是要看定序出來的品質如何，品質不好的話是否要去掉差的定序reads，特意設計疊加的reads是否要先處理完後再繼續下一步的aligment、是否有被污染、過多的adaptors(比較短的library中容易碰到的問題)。

最常見用來評估定序品質的工具為FastQC

FASTQC 是一款用來分析RNA-seq FASTQ 檔案的軟體,可以在command line環境下執行.

分析後會取得的資料:

檔案名稱:最原始分析前之檔案名稱
檔案類型
解碼(encoding):其品質數值所表示的ASCII
全部定序數量(Total Sequence):總共有多少定序片段
過濾定序(filtered sequence):在Casava模式下,在分析過程中片段序列被標誌且移除
定序長度(Sequence Length):最短和最長的定序序列
GC比例(GC content)

FastQC 執行完,會給出11張圖:

Per Base Sequence Quality 每個base平均品質

分析內容
1. 可以用來看是否有特別低品質的定序序列,通常都是因為照向品質不好所造成的,像是位在定序晶片邊緣的點
2. 達不同品質指標,圖標會顯示之圖例
  - 警告(Warming):當平均品質小於27/0.2% error rate
  - 失敗(Failure):當平均品質小於20/1% error rate
3. 備註:經過quality trimming後可能會有偏差,或是看不出error batch?

Per Sequence Quality Scores 每條序列中不同位點的品質

分析內容
1. 顯示序列裡不同位置平均品質範圍(只要是fastq中之資料)
2. BoxWhisker type Plot圖中標示的解釋:
  - 中間紅色線:中間值(median)
  - 黃色長條:四分位距內的值(25-75%)
  - 上下whiskers: 各代表10%和90%的點
  - 藍色線:代表平均值(mean)
  - 背景色
    1. 綠色very good quality
    2. 橘色reasonable quality
    3. 紅色poor quality
  - 標題上是FastQC猜測此定序所使用的方式,在虛列品質好時比較容易猜測錯誤.
3. 達不同品質指標,圖標會顯示之圖例
  - 警告(Warming):當25%之任何序列位點<10或是median值<25
  - 失敗(Failure):當25%之任何序列位點<5或是median值<20
4. 問題導因:
  - 原因一: 跑定序的時間過長,造成後面定序出來的品質下降
    1. 處理方式: Quality Trimming(依據平均品質來決定裁掉的長度)
    2. 通常在adapter read-through也會有問題
  - 原因二:在一開始的時候就產生問題,可能有泡泡跑過定序的夾層,這時候就不適合trim,會因此拋棄過多好品質的序列
  - 原因三:太低的coverage可能會造成false negative

Per Base Sequence Content序列中不同位置其ATCG所佔的比例

分析內容:
1. 在一個隨機的library中,其序列中不同base應該不會有太大的差別.
2. 通常在開頭的地方容易有不平均的ATCG比例,通常在Library製備過程中priming使用到random hexamers(幾乎所有RNA-seq的製備都會使用),或是在fragmentation過程中使用transposases,通常會在reads開頭有偏差出現,使得在有enrichment在5’端的different k-mers處,這種技術性造成的偏差無法藉由trimming消掉,但在downstream analysis中也不會造成太大的問題
3. 達不同品質指標,圖標會顯示之圖例
  - 警告(Warming):當任何一處的ATCG其差異超過10%
  - 失敗(Failure):當任何一處的ATCG其差異超過20%
4. 問題導因:
  - 原因一:Overrepresented sequence
    1. 可能是做定序所使用的adapter dimers或是rRNA
  - 原因二:Biases Fragmentation
    1. 因製備Library中所使用的random hexamers在前12bases會有selected biase,但這在後續的process可以處理掉,不太會影響後續的分析
  - 原因三:Biases Composition Libraries
    1. 大多數的library本身就會有些composition的偏差,尤其是使用sodium bisulphite製備的,其會造成cytosine變成thymines,所以會使得C的比值偏高
  - 原因四:Extreme Trimming
    1. 在尾端會出現,因為很積極地將跟adapter match的序列去除掉

Per Sequence GC Content 測量GC在序列中的比例

分析內容:
1. 其主要是分析不同序列的GC之分布圖,應該要跟理論分布差不多
2. 比較陡或是尖:可能是被adapter汙染
3. 比較寬:可能是被不同物種所污染
達不同品質指標,圖標會顯示之圖例:
1. 警告:偏離理論值15%
2. 失敗:偏離理論值30%

Per Base N Content 平均每個位點壞品質(N)

分析內容:
1. 當某個序列即位點定序品質很差,則會用N代表
2. 通常當某個部分其N所佔的比例上升的話,其會使後面的分析無法獲得有效的base cal.
達不同品質指標,圖標會顯示之圖例:
1. 警告:任一個位置其N所佔比例大於5%
2. 失敗:任一個位置其N所佔比例大於20%
備註原因:
1. 原因一:
  - 通常是整體定序品質不佳,可以檢查一下特定bin的coverage,可能有某一個bin其定到的序列非常少
2. 原因二:
  - 有嚴重偏差的LIBRARY,在Per Base Sequence Content也可以看出來

Sequence Length Distribution 定序長度分布圖

分析內容:
1. 顯示平均定序的長度,這部分就要先了解是使用何種定序方式,有的會有單一長度,有的則是不同
2. 達不同品質指標,圖標會顯示之圖例:
  - 警告:假如定序的長度有不一樣的話
  - 失敗:任一個定序長度是零

Duplicate Sequences 重複序列

分析內容:
1. 在一個均勻的library中序列應該只會出現一次,很低程度的重複率可能暗示高coverage,高度序列重複則可能是library中有某種程度的enrichment bias
2. 為了使分析的計算效率提高,這個分析模組只會分析在前100000的序列,另外在超過10個重複的序列,其會被放在一起呈現
3. 比較長的定序讀數,通常會造成一定程度的低估重複率
4. 藍色線:代表完整序列其重複率, 紅色線:代表去掉重複後不同序列的比例

Overrepresented Sequences
Adapter Content
Kmer Content
Per Tile Sequence Quality

去掉品質差Reads的工具：Trimmomatic

可以用來處理illumina機器裡的adaptor，其也可以將low-quality的base或是N base去掉，其可以處理single-end和paired-end的資料。此程式是java base的軟體，在command line下操作。

處理特殊設計的paired-end 實驗設計：BBMerge 和 FLASH

有些實驗設計時，會將paired-end read設計成疊在一起的樣子，而這兩款程式可以將重疊的paired-end reads合成單一條較長的reads，且能計算出innert-size的分布圖。

偷偷查了一下FLASH的使用趨勢，似乎暴增人數使用！

	臨床次世代定序NGS Workshop… 在使用國網中心超級電腦台灣衫建置定序分析流程(二）
	臨床次世代定序NGS Workshop… 在使用國網中心超級電腦台灣衫建置定序分析流程(一）
	Kotlin 在可擴展標記語言XML是什麼？
	Cupid.K 在 2021 臨床次世代定序實務與應用概論
	kuoYH 在 2023 生物資訊學習資源彙整

	臨床次世代定序NGS Workshop… 在使用國網中心超級電腦台灣衫建置定序分析流程(二）
	臨床次世代定序NGS Workshop… 在使用國網中心超級電腦台灣衫建置定序分析流程(一）
	Kotlin 在可擴展標記語言XML是什麼？
	Cupid.K 在 2021 臨床次世代定序實務與應用概論
	kuoYH 在 2023 生物資訊學習資源彙整

RNAseq’s 資料前處理:Quality Control

Per Base Sequence Quality 每個base平均品質

Per Sequence Quality Scores 每條序列中不同位點的品質

Per Base Sequence Content序列中不同位置其ATCG所佔的比例

Per Sequence GC Content 測量GC在序列中的比例

Per Base N Content 平均每個位點壞品質(N)

Sequence Length Distribution 定序長度分布圖

Duplicate Sequences 重複序列

去掉品質差Reads的工具：Trimmomatic

處理特殊設計的paired-end 實驗設計：BBMerge 和 FLASH

發表留言取消回覆

Per Base Sequence Quality 每個base平均品質

Per Sequence Quality Scores 每條序列中不同位點的品質

Per Base Sequence Content序列中不同位置其ATCG所佔的比例

Per Sequence GC Content 測量GC在序列中的比例

Per Base N Content 平均每個位點壞品質(N)

Sequence Length Distribution 定序長度分布圖

Duplicate Sequences 重複序列

去掉品質差Reads的工具：Trimmomatic

處理特殊設計的paired-end 實驗設計：BBMerge 和 FLASH

分享此文：

發表留言 取消回覆

發表留言取消回覆