盛夏不等式: OTU 及物種注釋

一、以核酸為基礎的微生物研究

儘管藉由培養技術能深入探討微生物的種類、型態及功能，但其缺點包含：（1）操作繁複導致無法檢驗大量樣本，（2）研究範圍限於可培養的微生物，（3）無法觀察微生物於環境中的表現。所以為了全面研究微生物的生態系統，仍有必要仰賴基於核酸的微生物研究技術。

基於核酸的技術不直接觀察細胞，而是蒐集樣本中來自不同細胞的基因，再藉由 DNA 或 RNA 帶有的資訊研究微生物群集的性質。因此基於核酸的技術能迴避培養學的困難，直接獲得大量的樣本資訊。研究者可以利用標誌基因鑑別物種，繼而從序列數量推論族群規模，評估物種數或物種均勻度等特性，或是以資料庫註解其他基因片段，探討樣本中的微生物可能表現的功能。

依照核酸的種類與範圍，基於核酸的技術還可再分為標識基因分析（Marker genes analysis）、總基因體分析（Whole metagenome analysis）、轉錄體分析（Transcriptome analysis），本文要說明的是標識基因分析的原理。

標識基因分析：利用引子（primer）擴增樣本中能鑑別物種的標識基因，藉此分離出樣本中的目標生物，排除宿主或環境裡其他核酸的汙染，獲得微生物群集的物種組成資訊。由於僅蒐集片段基因，所以標識基因分析的成本最低，但其表現會受引子的種類、PCR 擴增程度以及標識基因的類別影響。

總基因體分析：直接定序樣本中所有的 DNA，因此能避免 PCR 偏誤。全總基因體分析的成本較高，但能得知微生物帶有的功能基因以及更細緻的物種分類資訊。

轉錄體分析：全總基因體分析可得知微生物可能帶有的功能，轉錄體分析則能透過定序 mRNA 得知微生物實際表現的功能，進而區分環境中的細菌殘骸、休眠細菌以及活躍細菌。但相對地，轉錄體分析的操作困難度以及定序成本為三者最高。

二、標識基因（Marker genes）

標識基因分析流程

在定序與品質控管完成後，會將標識基因依照彼此的相似程度分成許多組別，這些組別即為 Operational taxonomic unit（OTU，操作分類單位）。接著以各 OTU 中數量最多的序列為代表，對照Silva、Green Genes 以及 RDP 等物種資料庫以獲得該序列的分類資訊，最後生成包含各 OTU 數量以及物種注釋的 OTU 表，OTU 表是之後多樣性分析或排序分析的基礎。

標識基因的特性

良好的標識基因通常具有以下特性。

普遍出現在特定分類階層的生物裡，因此既能辨識同階層以下所有生物，也得以排除無關生物。
在多數物種的基因體內數量一致，因此能準確估計樣本中的個體數量。
具有高度保守的序列片段，能作為 PCR 擴增時的引子標的。
具有高度變異的序列片段，能作為區分物種的依據。
不同物種的變異區段相似度能反映物種的親緣關係。
序列長度適中，足以區分物種但不需耗費太大的定序成本。
有相應的參考序列資料庫得以註解分類資訊。

不同的物種適用不同的標識基因，微生物裡以 16s rRNA 基因為大宗。

16s rRNA genes 的結構

16s rRNA genes 是細菌的小單元核醣體 RAN 基因，符合標識基因的條件，因此廣泛應用在微生物學研究當中。16s rRNA genes 的長度約 1.5 kb，共有十個保守區（conserved regions）與九個變異區（variable regions）間隔排列。保守區用以從樣本中篩選出細菌，變異區用以區分菌種，所以微生物標識基因分析用的序列總是涵蓋這兩個片段。

原則上定序的 16s rRNA genes 序列越長，涵蓋的變異區越多，分類物種就越精確。然而隨著定序長度上升，組裝的難度提升，次世代定序的品質也會跟著下降，所以需要更多的讀數確保定序結果正確，導致成本上升。因此微生物研究中較常看到依照一兩個變異區辨別物種的案例。

由於不同物種的基因在各變異區突變的頻率不一，所以選擇不同的變異區會有不同的分類結果。例如若某屬於 V3-V4 突變頻率較低，則選定 V3-V4 作為分類依據便比較不容易區分屬內各種。因此比較不同實驗的結果時應留意變異區的差異。

標識基因分析的缺點

雖然依據標識基因分類物種的成本較全基因體定序低，然而標誌基因的分類解析度僅能到屬或種，而且也忽略了物種帶有的功能基因。

16s rRNA genes 是細菌中普遍存在的核心基因，代表著物種與物種之間的親緣關係。可是細菌會因頻繁的水平基因移轉而附帶多樣的功能基因，這些基因影響細菌實際上能適應的環境。如此一來，同一種細菌裡可能存在多個品系，彼此的 16s rRNA genes 序列相似，但附帶的功能基因相異，各自棲息在不同的環境，因此僅利用標識基因便無法充分表達細菌在環境中的功能特性和實際生態棲位。

此外，因為無法區分標識基因屬於死亡的細菌還是活著的細菌，而且分析的前置步驟是以引子擴增樣本中的標識基因，引子的專一程度和 PCR 的擴增效率不同都會影響結果序列的多寡，所以標識基因分析難以反映環境中活躍的微生物數量。

三、操作分類單位（ Operational taxonomic units）

OTU 的定義

擴增而得的序列雖然源於樣本內的微生物，但在註解其分類資訊前，無法得知序列隸屬哪些物種。為了方便討論未註解的序列，所以依照特定的標準（例如序列相似度），將序列分門別類，並且命名為 OTU1、OTU2、OTU3、……。

OTU 與物種的關係

物種是依照個體的型態及分子特徵區分的概念，而 OTU 則是單就序列相似度設定的概念，因此兩者之間並非一一對應關係。如果同一物種的序列相似度低於分類 OTU 的標準，則不同的 OTU 可能隸屬同一物種；如果多物種的序列相似度高於分類 OTU 的標準，則相異物種將併入同一 OTU。

OTU 的物種注釋

樣本序列在去除嵌合體以後，依照序列彼此的相似度（de novo clustering）或與參考序列的相似度（reference clustering）分為數群，每一群皆為一個 OTU。接著自 OTU 中選取比例最多的序列作為 OTU 的代表序列，再對照物種資料庫獲得該 OTU 的分類資訊，沒有資料的 OTU 則維持原名。簡言之，序列分群成 OTU，再註解為物種。

分群的用意

由於物種遺傳多樣性、實驗的偏誤以及運算量龐大，所以才要先以相似度定義 OTU ，以排除干擾並反映真實的物種分類。

不過OTU與物種的關係會隨相似度的標準而異，如果標準訂得過高，會忽略物種間的親緣關係；如果標準訂得過低，會無法反映物種間的差異。然而同樣的標準對於不同的生物有不同的效果，單一標準可能無法應對，因此亦有無須分群注釋物種的方法。例如 DADA2 即事先排除品質不佳的序列，再直接注釋序列。

四、建立 OTU的演算法

UCLUST

以第一條序列作為 OTU1 的中心
比較第二條序列與第一條序列的相似性，若符合分群標準則納入 OTU1 中，反之則以第二條序列為中心建立 OTU2
持續比對新序列與任意 OTU 的中心，反覆納入既有 OTU 或建立新的 OTU
若新序列與多個中心的相似度皆達標準，則納入相似度較高者

此演算法的缺點有：（1）序列納入 OTU 的順序會影響結果，（2）沒有比較所有序列，所以同一 OTU 內彼此未必是最相似的序列。

五、註解物種的方法

de novo

僅依照序列間的相似度分群並定義 OTU，不須已知的參考序列，適用於有許多未知物種的環境。然而分群方法影響物種注釋，所以難以比較不同實驗結果。

closed-reference

合併與參考序列相似的序列，在註解物種的同時也將序列分群，迴避了 de novo 方法在分群時出現的誤差，而且不同實驗結果可以相互比較。然而物種註解程度受限於分類的理解，若沒有參考序列就無法得知該序列的分類資訊。

open-reference

先以 closed-reference 註解序列，再依 de novo 對沒有參考序列資料的序列劃分為不同的 OTU，改進了 closed-reference 的缺點，但是也喪失了部分的資料可比性。

盛夏不等式

OTU 及物種注釋