在標識基因分析中,會以引子 (primer) 鎖定目標基因兩端的保守區,以截獲其中可提供分類資訊的變異區。例如由 Caporaso et al (2012) 設計,常用於研究人體腸道微生物的 515F/806R 引子,便能擴增 16S rRNA 的 V4 變異區,獲得長度約為 253 bp 的序列(順向擴增起點座標 - 逆向擴增起點座標 +1 - 順向引子長度 - 逆向引子長度 (806 - 515 + 1 - 19 -20 = 253 bp) )。
僅憑印象判斷,可能會以為16S rRNA V4 區域兩端的保守區間距變化不大,所以引子擴增出的序列應具有相似長度,但實際上並非如此。下圖為 DIABIMMUNE 計畫,嬰兒腸道微生物 16S rRNA V4 區域的擴增結果。雖然多數的序列集中在 253 bp,但周圍仍有長度從 37 bp 到 258 bp 的序列。
這張圖中呈現的資料已經事先經過許多處理,所以不是原始資料的長度分布。但我想以此圖說明,即使是從保守區擴增出來的片段,也不會只有一種長度。 |
這些長度不一的序列可能是具有生物含義的正確序列,也可能是定序和建庫過程中產生的偽序列,亦或是資料處理時引進的誤差。由於長度不一有許多成因,所以資料處理的方式也因成因而異。
此外,不同的標的基因分析流程對於序列有不同的要求,所以處理這些序列的方式也因研究議題和採用的工具而異。例如,使用 Deblur(將序列降噪為 ASVs 的工具)和 UPARSE(將序列聚類為 OTUs 的工具)等要求輸入序列長度一致的演算法時,便得在資料前處理階段統一裁切樣本中的序列;但使用 DADA2(另一種將序列降噪為 ASVs 的工具)則可省略此步。
然而,無論採取何種方法,由於多數序列的長度集中在特定範圍,序列長度在 16S rRNA 分析中可以作為判斷序列可信度的依據,透過移除極端長度者能排除偽序列或汙染序列的影響。