2019年2月17日 星期日

微生物多樣性分析|β 多樣性(beta diversity)的含意與指標

一、β 多樣性的含意


α 多樣性是群集內的物種歧異程度,而 β 多樣性則是群集間的物種歧異程度。β 多樣性常用於描述群集在不同環境或干擾前後的差異,群集隨時間或其他環境因子的梯度變化,或是檢驗樣本間的重複性。由於微生物研究涉及很多樣本和物種,在計算樣本間的 β 多樣性後,通常會以 PCA、PCoA、NMDS 等排序方法進一步分析並繪圖呈現以利理解。這些研究項目意在釐清外在因素對群集結構的影響,所以良好的指標有助於研究者從觀察中發現模式,繼而提出假說並檢驗之。


儘管可以利用不同群集的 α 多樣性差異作為 β 多樣性指標,但此指標無法忠實呈現群集間的組成差異。以兩個由不同物種組成的群集為例,假設兩者的 richness 和 evenness 一致,此時 α 多樣性的差異為 0 ,這結果只能表示兩個群集的物種數和物種的均勻程度相同,無法區別兩群集的物種類型或是親緣關係。因此,過往的研究者已針對不同的特徵和研究需求發展出多種 β 多樣性指標。


良好的 β 多樣性指標要能直觀地反映群集的組成差異,儘管相異指標側重的群集特徵各異,對於同筆資料也許有不同的詮釋,可是這些指標至少要能呈現理想的測試資料的差異。例如在兩相等的群集(物種類型、數量、均勻皆同)的任一者添加新個體必然會擴大兩者組成差異,若指標能通過這樣測試,代表該指標具有 monotonicity 特性。另一項特性 density invariance 表示指標只與物種的相對數量有關,不因群集規模而異,故能泛用不同尺度的環境中。


二、β 多樣性指標的類型


微生物研究中常用的 Jaccard similarityBray-Curtis distance 以及 Unweighted UniFrac distrance等 β 多樣性指標是為了度量群集差異或相似程度而發展出的人為概念,因此指標的應用場合、前提條件以及數值詮釋,會因研究者觀察的角度和定義差異的方式而有所不同。常見的分野包含:


度量相似性(similarity) vs 度量差異性(dissimilarity)

在生態學研究中,研究者有時關注的是群集間的差異性,例如叢林的物種隨時間的變化或是農藥對的田野生物的影響;另一方面,研究者也關注群集間的相似性,例如同種棲地的群集是否類似以及遷移後的群集和原始群集是否有關。所以依照研究的生態現象,研究者各自發展出 β 多樣性的相似性指標與差異性指標:相似性指標的數值愈大,相似性愈高;差異性指標的數值愈大,差異性愈高,兩者是一體兩面的觀念。

距離類比( distance) vs 分異類比(differentiation)

不同的指標以不同的概念描述差異。距離指標把群集的差異類比為點與點的空間隔閡,差異越大,間隔越長;分異指標則把群集的差異類比為集合間重疊的元素,差異越大,重疊得越少。距離指標遵循三角不等式,分異指標不必遵循三角不等式,但也無法在平面上展示樣本點之間的分異程度。距離指標侷限於兩群集,分異指標則適用於任意數量的群集。藉由計算群集間距的平均值或是各群集到中心的平均值,距離概念得拓展到描述多群集的差異。

使用定性資料(incidant data) vs 使用定量資料(abundant data )

因為定性資料僅紀錄樣本中是否出現特定物種,沒有該物種的數量資訊,所以基於定性資料的 β 多樣性指標能應用於界定個體困難或計算數量不易的生物,例如微生物、蜂群以及透過根莖葉延伸的植物。

儘管定性資料較定量資料容易蒐集,在母體物種數龐大或是稀有物種數多的時候,定性資料指標往往會因樣本數不足而導致很大的誤差,這些誤差仍得仰賴定量資料才能修正。此外,族群規模攸關種內調節、種間互動以及對環境的影響等生態現象,然而高低豐度的物種在定性資料指標中的權重一致,忽略了族群規模的影響。

因此,除非定量資料不可靠(例如定序誤差嚴重)或母體的物種組成變化劇烈(例如環境複雜或干擾嚴重),在物種組成變動不大但各物種數量劇變的情況下(例如環境穩定或干擾微弱),基於定量資料的 β 多樣性指標較能呈現出群集的差異。


基於獨立 OTU  vs  基於系統發生樹(with phylogenetic trees)

為了研究樣本中無法培養的微生物,需要定序微生物細胞內能區分物種的標誌基因(例如16s rRNA 基因),再依照這段基因的相似程度(95 - 99%,常見為 97%),先將樣本中的序列分為許多組別,這些組別即為Operational taxonomic unit(OTU,操作分類單位),接著以各 OTU 中數量最多的序列為代表,對照資料庫以得知該 OTU 的物種資訊。

基於獨立 OTU 的指標假設 OTU 間沒有任何親緣關係,當指標的數值相同時,代表兩群集的物種組成和相對數量一致。然而實際上不同 OTU 的序列仍有程度不一的相似性,所以這類指標一方面會高估親緣關係相近之群集間的 β 多樣性,有助於發現相似環境的不同群集或干擾前後的同一群集的差異。另一方面則會低估親緣關係較遠之群集間的相似性,因此較不適合用於展示群集間的相似性。

至於基於系統發生樹的指標則考量了不同 OTU 的親緣關係,亦即兩群集若由相似物種組成,群集間的相似度較高,β 多樣性愈低。由於親緣關係相近的物種通常具有相似的生態棲位,因此考量了物種間親緣關係的指標較能反映群集差異的生物意義,比基於獨立 OTU 的指標適合展示群集間的相似性。



三、常用的 β 多樣性指標


Jaccard index & Sørensen–Dice coefficient

$Jaccard\ index:\quad \frac{S_{12}}{S_1+S_2-S_{12}}$
$Sørensen–Dice\ coefficient:\quad \frac{2S_{12}}{S_1+S_2}$
$S_1$:群集 1 的物種數
$S_2$:群集 2 的物種數
$S_{12}$:群集 1 和群集 2 共有的物種數

量度 β 多樣性的基本方法就是比較兩群集共有物種的數量,共有物種數量愈多,兩群集的相似性愈高。Jaccard index 計算兩群集物種交集和聯集的比值,Sørensen–Dice coefficient 則是共有物種數與兩群集平均物種數的比值,皆只需定性資料。雖然此處以兩群集為例,Jaccard index 和 Sørensen–Dice coefficient 都能推廣成計算多群集的 β 多樣性指標。


Bray–Curtis similarity


$S_{BC}=\frac{2\sum_{i=1}^Smin(M_{i1},M_{i2})}{\sum_{i=1}^S(M_{i1}+M_{i2})}=1-\frac{\sum_{i=1}^S|M_{i1}-M_{i2}|}{\sum_{i=1}^S(M_{i1}+M_{i2})}$



$S$:兩群集合併後的物種數

$M_{i1}$:第 i 種物種在群集 1 的數量

$M_{i2}$:第 i 種物種在群集 2 的數量

$min(M_{i1},M_{i2})$:兩群集第 i 個物種共有的個體數。
$\sum_{i=1}^Smin(M_{i1},M_{i2})$:兩群集各物種共有的個體數之和
$\sum_{i=1}^S(M_{i1}+M_{i2})$:兩群集合併後的個體總數

Bray-Curtis similarity 是 Sørensen–Dice coefficient 的延伸,其含義為物種共有的個體數與兩群集規模平均的比值,不僅考量物種組成也採計了各物種的數量。當兩群集各自的物種分布皆完全均勻的時候,Bray-Curtis dissimilarity 可簡化為 Sørensen index,所以Bray-Curtis dissimilarity 又稱為 quantitative Sørensen index。

此指標的數值介於 0 與 1 ,數值愈大,兩群集愈相似。數值為 1 時,代表兩群集物種數、組成及均勻度完全一致;數值為 0 時,有兩種情形:(1)兩群集沒有共同物種,因此公式的分子為 0 。(2)兩群集規模差距相當大,導致指標的分母極大,分子極小。

這個現象代表 Bray-Curtis similarity 的意義與群集的絕對數量相關,不符合前述的 density invariance ,難以反映群集真實的相似性。假設自母體採集兩大小不同但物種組成和均勻度一致的樣本,原則上取自同一母體的樣本應有較高的相似度,但 Bray-Curtis similarity 卻會因樣本大小不同而得出較低的相似度,差距越極端,相似度愈低。這種情況在實際研究中特別嚴重,因為群集的絕對數量與採樣的周延程度有關,一旦兩群集的採樣程度不同,Bray-Curtis similarity 就難以跨尺度比較。因此 Bray-Curtis similarity 適用於樣本覆蓋率已知,並標準化的資料中。

當用於衡量差異性的時候,可以將Bray-Curtis similarity 改寫為 Bray-Curtis dissimilarity
$S_{BC}=1-\frac{2\sum_{i=1}^Smin(M_{i1},M_{i2})}{\sum_{i=1}^S(M_{i1}+M_{i2})}=\frac{\sum_{i=1}^S|M_{i1}-M_{i2}|}{\sum_{i=1}^S(M_{i1}+M_{i2})}$
此為微生物研究中較常看到的形式,指標數值愈大,群集間差異也愈大。

UniFrac

UniFrac 的全名為 Unique Fraction,即特定群集在系統發生樹上獨佔節點的比率,獨佔的比率愈高,群集間的重疊愈少,β 多樣性也愈高。由於公式中計入了系統發生樹上的枝長,因此UniFrac 是評估群集間物種親緣關係的多樣性指標。而 UniFrac 又根據是否採計族群規模分為沒採計的 unweighted UniFrac distance 和有採計的 weighted UniFrac distance

計算多樣本間的 unweighted UniFrac distance 的流程是:
$U_{uw}= \frac{\sum_{i=1}^{N} l_i | A_i - B_i |} {\sum_{i=1}^{N} l_i \max(A_i, B_i)}=\frac{unique}{observed}$
$unique$:系統發生樹上僅含有於兩群集之一的枝長和
$observed$:系統發生樹的總枝長
$N$:系統發生樹的節點數
$l_i$:第 i 節點與母節點的距離
$A_i$:第 i 節點含有源於樣本 A 的物種則數值為 1 ,反之為 0
$B_i$:第 i 節點含有源於樣本 B 的物種則數值為 1 ,反之為 0

  1. 以全部樣本的OTU建立一株系統發生樹(建樹方法由研究者自訂)
  2. 標記 OTU 的樣本來源,每個 OTU 可能有多個樣本來源
  3. 由於 UniFrac distance 是兩樣本的關係,因此先忽略不含欲比較的樣本之外的OTU
  4. 計算僅含有一樣本來源的枝長和
  5. 計算總枝長
  6. 計算 4. 和 5. 的比值即為兩樣本的 unweighted UniFrac distance
  7. 重複計算不同樣本的 unweighted UniFrac distance 得出樣本與樣本之間的 unweighted UniFrac matric

計算weighted UniFrac distance 的流程一致,但會考量物種相對數量:

$U_w=\frac{\sum_i^nb_i\times|\frac{A_i}{A_T}-\frac{B_i}{B_T}|}{\sum_j^SL_j}$
$N$:系統發生樹上的節點數
$b_i$:第 i 節點與母節點的距離
$A_i$:樣本 A 中隸屬第 i 節點的個體數
$A_T$:樣本 A 的群集規模
$B_i$:樣本 B 中隸屬第 i 節點的個體數
$B_T$:樣本 B 的群集規模
$S$:系統發生樹中含有的物種數
$L_j$:系統發生樹從根到第 j 物種所在節點的長度 

沒有留言:

張貼留言