下圖是 Miseq 平台的定序品質報告結果,本文簡介為什麼品質平均分數呈現中間高且兩端低的分布模式。
各鹼基的平均品質分數在最初月十五個鹼基長處驟升,之後隨長度遞減 |
Illumina 採中斷鹼基合成法,透過偵測添加鹼基之後,激發出的螢光訊號來辨識鹼基種類。若酵素沒有成功移除用於中斷定序的 dNTP ,聚合酶便無法添加新的鹼基,導致該序列的合成進度落後其它序列一個或多個鹼基 (phasing)。
反之,若 dNTP 上的修飾基團脫落,則聚合酶可能一次添加多個鹼基,導致該序列的合成進度超前 (prephasing)。這兩種狀況通稱為 Phasing/prephasing ,簡言之就是指相同定序簇 (sequencing cluster) 內,待測序列的合成速率不同調之狀況。
一旦發生 phasing/prephasing ,相同定序簇的序列會因這些不同調的鹼基而發出不同螢光,以至於儀器將無法準確讀取定序結果。 由於 phasing/pre-phasing 不可逆,所以不同調的序列會隨定序輪數增加,使得定序品質遞減。
為了校正 phasing/prephasing 以及鹼基螢光波長重疊的問題, Illumina 平台的儀器會以最初幾輪的定序結果為依據,調整後續定序的結果和品質分數。由於前幾個鹼基沒有校正的依據,所以定序品質便被設定得較後面的序列低。
綜上所述,Illumina 平台上的定序品質隨序列長度下降的原因是 phasing/prephasing ;而最初幾個鹼基品質較低的原因是因為它們被用於校正後續的定序結果。
參考資料
ecSeq. Why does the per base sequence quality decrease over the read in Illumina? ecSeq Bioinformatics.
Illumina (2020). What is nucleotide diversity and why is it important? Illumina.
Loman (2013). Diagnosing problems with phasing and pre-phasing on Illumina platforms. Loman Labs.
NYGen (2015). WHY are the first few bases of Illumina HiSeq reads of lower quality? SEQanwsers.
沒有留言:
張貼留言