盛夏不等式: 16S rRNA 定序文庫製備

相較於培養方法，基於 16S rRNA 標識基因的微生物研究既能批次處理大量資料，也能研究難以培養的菌種。此外，由於僅定序微生物基因體的一部份，其成本也較全總基因體定序 (shotgun metagenomic sequencing) 低，能在研究初期先勾勒出目標環境的物種組成，再由結果判斷值得探究的對象，進而以轉錄體、全總基因體或蛋白質體技術等成本較高的技術深究之。

儘管標識基因分析具高效價廉等優點，分析結果優劣仍有賴良好的樣本與資料處理流程。16s rRNA 標識基因分析當中，從環境中萃取的 DNA 需先製備為文庫才能送諸定序。製備定序文庫的方式和流程不僅影響序列品質，亦會左右往後分析資料與詮釋結果的方式，因此理解文庫製備的相關知識有助於調整和設計分析流程。

本文將介紹 16S rRNA 定序文庫的製備原則，並說明過程中不同有哪些可能影響生物資訊分析的環節，再舉主流的兩種建庫方式統整前述觀念。

一、建立 16S rRNA 總基因體擴增定序文庫的用意

所謂 16S rRNA 總基因體擴增定序文庫是指：微生物轉錄 16S rRNA 的基因片段，經 PCR 擴增並接上後續分析所需之人工片段後，得為定序平台處理的 DNA 集合。而建立定序文庫的目的即是取得目標基因，並添加分析相關序列。

1. 取得足夠的訊號並篩選欲定序的目標基因

在環境或人體樣本中，除了細菌外亦有古菌和真核生物的核酸。為了取得所需的基因，標識基因分析利用 PCR 擴增 16S rRNA 的基因片段，提升目標基因在樣本內的比例，藉此排除其他生物的核酸汙染。再則，環境中的稀有物種可能因族群規模太小，造成樣本中的核酸含量過低，以致無法達到定序所需的信號強度，擴增細菌基因體的 16s rRNA 基因片段有助於捕捉這些稀有物種的存在。

2. 添加分析所需的人工序列

除了取得目標基因外，建立文庫的另一個目的是添加後續分析所需的序列。例如次世代定序的標準流程中，目標基因需要額外添加轉接子 (adapter) 和定序晶片 (flowcell) 接合，以進行隨後的擴增步驟。另外，由於微生物分析所需的定序深度低於定序平台的通量，為了節省成本，通常會混合不同樣本共同定序 (multiplexing)，此時便需要添加索引 (index) 或條碼 (barcode) 標明該序列所屬樣本，以便在定序完成後區分各筆資料的來源 (demultiplexing)。

二、製備定序文庫的原則

雖然製備擴增定序文庫的方式各異，但通常都涉及擴增目標基因、挑選分析用的序列以及添加人工序列等流程。

1. 選擇擴增片段

16S rRNA 基因上有間隔排列的保守區 (conserved regions) 和變異區 (variable regions)。變異區的鹼基差異可用於判斷微生物間的親緣關係，而在不同物種間恆定的保守區則可以作為引子 (primer) 標的，從混雜著不同來源核酸的樣本中擴增出細菌的16s rRNA 基因。

原則上挑選的片段越長，便有越多資訊可供物種分類。但是長片段的定序成本較高，且主流的次世代定序平台 Illumina 之讀長有限 (2*350 bp)，所以實際上僅能折衷選擇長度較短但能反映物種差異的基因片段。

理想的擴增片段要有足夠的變異性以反映親緣關係，在變異區兩端也要有適切的保守區，確保採用的引子能捕捉環境中多數的物種。然而 16S rRNA 基因僅為細菌基因體的一小部分，所以單憑其中的變異區只能區分屬 (genus) 或種 (species) 等分類階層，種或品系 (strain) 的細部差異則需要全總基因體定序才有辦法得知。

此外，即使是 16S rRNA 基因的保守區，仍在部分細菌間存在變異，所以目前沒有物種一致的基因片段，無論選擇哪個擴增片段皆無法涵蓋環境中所有的物種。而且因為細菌與古菌的基因相似性，使用 16S rRNA 的特定區段有可能擴增到古菌的基因（雖然這不一定是壞事）。

基於以上原因，16S rRNA 標識基因分析的最適擴增片段仍因研究而異。不同環境有不同的物種組成，這些物種在資料庫的紀錄也不同。選擇擴增片段即是在確認關注的菌群後，考量資料詳盡程度、環境差異以及定序技術極限的過程。

2. 設計引子 (primer)

擴增片段決定了可能獲得的序列，引子和擴增流程則決定實際獲得的序列種類和數量。如同挑選擴增片段，理想的引子也要盡可能捕捉到環境中的微生物（覆蓋率），並確保僅捕獲目標而不誤逮其它域的生物（特異性）。

但如前所述，儘管鎖定了多數細菌共有的保守區，仍會因為部分細菌的基因差異導致引子無法擴增環境中所有的物種。即使引子能順利接合到目標基因，也可能因引子與序列的親和性差異，造成不同基因的擴增數量落差，導致定序文庫內各基因的數量分布失真。

3. 轉接子 (adapter)

在次世代定序的擴增步驟中，為了合成目標基因的模板，需要一段人工製造的轉接子與定序晶片 (flowcell) 上的接頭 (graft) 接合。當目標基因藉由轉接子附著在定序晶片上後，便能開始 Illumina 的橋式擴增。

(adapters and graft)

在序列品管的過程中，裁切和篩選低品質序列的方法因情況而異，往往有許多調整空間。但轉接子是人工設計的序列，必須徹底清除以免誤導往後的分析。

4. 條碼 (barcode or index)

隨技術進步，定序晶片能處理的讀數逐漸增加，遠超過定序單一樣本之 16S rRNA 基因所需的深度。為了節省時間和耗材，往往將多個樣本混合定序。條碼即是為了在混樣定序後區分序列來源而添加的人工序列。

依照使用的條碼數量可分為 single index 和 dual index 兩種，前者僅在核酸的其中一端帶有條碼，後者則在序列兩端都有條碼。兩種模式有各自的引子組成和讀取流程。

採用 single index 時，第一輪定序將以 Read 1 primer 讀取目標區域的正向序列，再以 Index primer 讀取條碼序列。下一步會利用正向模板重新合成逆向模板，用 Read 2 primer 讀取目標基因的逆向序列。由於採取橋式擴增 (bridge amplification)，兩股模板會落在相近的位置，所以即使逆向序列上頭沒有條碼，也可以藉由第一輪讀取的條碼判斷其所屬樣本。

(Single index sequencing / image credit: Indexed Sequencing

Overview Guide, illumina )

然而，有時可能因為擴增失常、定序錯誤或是溶液汙染導致不同樣本彼此串擾 (crosstalk)，亦即錯誤地標註或讀取某讀數所屬樣本，導致拆分樣本時得到不正確的資料。

(Dual index sequencing / image credit: Indexed Sequencing

Overview Guide, illumina )

避免串擾的方式有許多種，例如增加條碼長度以免錯配或誤讀。而 dual index 的方法是在另一端增加條碼，利用兩端的條碼交叉檢驗降低錯誤標註的問題。

以 Miseq 等平台為例，當讀取正向序列的條碼後，在重新合成逆向模板之際隨即讀取逆向序列的條碼，接著統合兩條碼決定該次讀取結果所屬的樣本。

4. 添加人工序列的方法

構建文庫時能用 DNA 連接酶串聯目標基因與人工序列，或是提供模板以便在擴增時一併合成所需的人工序列。基於連接酶的方法較直觀 (B)，即是先接合目標基因與添加序列，再操作 PCR 擴增之。

基於 PCR 擴增的策略 (A) 可以減少製備文庫的中間步驟，但其流程則較為複雜。在第一輪 PCR 中，5' 帶有人工序列的正逆向引子分別接合到目標基因上，並在 DNA 聚合酶的作用下以目標基因為模板延長。

由於目標基因當中不含人工序列，因此在第一輪 PCR 擴增產物的沒有任何 3' 人工序列。直到第二輪 PCR 時，對向引子接合到擴增產物上，才能以第一輪的產物為模板合成同時含有 3' 和 5' 的文庫序列。

雖然在此列舉了兩種方法，但實際上可以一併使用。例如先以 PCR 合成條碼，再用連接酶添加轉接子等等。

(Methods for adding technical sequence)

三、定序文庫製備與生物資訊分析

前面已經介紹了製備定序文庫的目的和原理，接下來將說明其與生物資訊分析的關係。就我的觀點而言，定序資料的品質取決於實驗階段，當資料到手以後能改善的空間有限，所以我認為製備定序文庫的方法影響最重大的不是品質管控，而是詮釋與解讀資料的方式。

1. 不同數據的統合分析

統合分析能彙整多項研究的結果回答特定問題。在 16S rRNA 標識基因分析當中，選定的擴增區域和設計的引子都會影響樣本的物種覆蓋率和數量分布，所以若要從事跨研究比較通常會選用相同擴增區域和引子以減少偏差。

雖然可以利用封閉參照的方式建立 OTU，以迴避不同擴增區域的差異。然而因為不同區域的資料庫詳盡程度不一，引子偏好性也不同，所以即使採用此方法仍然可能有差異。

2. 序列品質管控

分析公開的定序資料時，可能無法獲得完整的人工添加序列清單，所以需要仔細閱讀論文及數據說明，確認資料使用何種轉接子和引子。此外，若知道資料的建庫方式也比較容易想像可能會出現哪些形式的無關序列。

3. 解讀結果

chao1 和 ACE 等估算物種數 (richness) 的指標，皆是透過樣本中稀有物種的比例推算環境中潛在的物種數。然而在 16S rRNA 標識基因分析當中，能捕捉到的稀有物種為選定的擴增區段左右，測得的族群規模也受擴增過程影響。所以即使是同樣的環境，也試圖用稀釋方法排除擴增偏誤，仍可能因技術差異得出不同的數值。

除了 alpha 多樣性指標，Bray-Curtis 或 Weighted UniFrac 等採計各物種族群規模的 beta 多樣性指標也深受定序文庫製備的影響。因為如果 beta 多樣性指出的差異是源於擴增時的偏差，便會誤導結果的判讀。

另外，當試圖在對照研究中辨識微效的微生物時，一點點的技術誤差都有可能造成結果天差地遠。例如條碼混雜了不同樣本等，可能造成資料形成假陽性。

綜上所述，儘管從事生物資訊分析時無法徹底調查所有實驗細節，但獲得正面結果時至少要一一考量可能造成偽陽性的技術誤差。

四、常用的建庫方式

Single-indexing 16S rRNA targeting Library Preparation

此方法誕生於 illumina 逐漸興盛的時期，由於 illumina 定序平台的讀長低於 454 Roche，能否適用於大規模的 16S rRNA 標識基因分析仍有疑慮。Caporaso et al. (2011) 採取 single-index 策略拆分樣本並以 one step PCR 方式添加人工序列，發明了適用於 illumina 定序平台的 16S rRNA 定序文庫製備方式。

在此方法當中，用於擴增目標基因的片段引子包含了所有定序所需的人工序列：轉接子、條碼以及避免自我配對 (primer pair) 或形成夾彎 (hairpin) 的 pad/linker。

(Forward and reverse primer / based on Caporaso et al., 2012)

當正逆向引子辨識了目標基因的保守區，即可沿著目標合成兩端帶有引子、條碼及轉接子的的擴增序列。也因為上面帶有完整的人工序列，樣本在擴增後即可送諸定序。

(1-step PCR library preparation / based on Caporaso et al., 2012 and 16S rRNA indexed primers amplify phylogenic markers for microbiome sequencing analysis)

由於採取一階段擴增，所以此法能簡化建庫流程，降低過程中的樣本耗損。不過也因為所有人工添加序列都集中在一起，必須克服引子自我配對或扭曲的狀況，同時得針對不同的擴增標的設計不同的擴增引子。。

2-step PCR & duel-indexing 16S rRNA targeting Library Preparation

二階段擴增髮是 Illumina 官方文件推薦的建庫方式，首先在第一階段擴增目標基因，接著在第二階段合成條碼與轉接子，由於採取 duel-index 策略，所以有一對條碼用於交叉檢驗結果所屬樣本。

由於此方法歷經兩階段 PCR，因此有兩組擴增引子。第一組引子由保守區引子（與目標基因保守區接合）還有垂懸接頭組成 (overhang adapter，第二組引子的接合對象) 組成；第二組 primer 則由轉接子、條碼和以及與垂懸接頭引子的序列組成。

在第一階段 PCR 時將合成兩端帶有垂懸接頭的目標基因；第二階段 PCR 時，帶有轉接子和條碼的引子才與與擴增產物的垂懸接頭接合，開始沿著目標基因合成序列，最終產生帶有完整添加序列的目標基因。

(2-step PCR library preparation / based on 16S Metagenomic Sequencing Library Preparation, illumina)

由於採取兩階段擴增，所以過程中可能損失部分樣本。然而第二階段使用的擴增引子可以通用，所以只需要設計第一階段使用的引子，降低製作長引子的成本。此外，也因為第一階段的引子較短，所以較能避免一階段擴增法碰上的核酸摺疊問題。

六、結論

建立 16s rRNA 總基因體擴增定序文庫的用意是篩出目標基因並添加分析所需的人工序列，此過程左右了樣本的物種覆蓋率和數量分布，所以解讀正面數據時需要意識到這些技術偏差。

七、延伸閱讀

盛夏不等式

16S rRNA 定序文庫製備