2019年2月13日 星期三

微生物多樣性分析|α多樣性(alpha diversity)的含意與指標


一、物種豐富度指標(Species richness index)


物種豐富度是指群集含括的物種數目,通常研究者無法採集到群集中所有個體,所以只能從樣本推估母體的物種數。既有的方法包含曲線配適法(curve fitting)、參數法(parametric approach)和無參數法(non-parametric approach)


  • 曲線配適法:樣本物種數會隨成本投入漸增,當增長幅度趨緩直到飽和停滯時,代表已普查母體,無法再找到新物種。然而普查通常不可行,因此曲線配適法以有限的樣本資料擬合假定的物種累積曲線(species accumulation curve),再利用該曲線的函數預測投入無限成本時的理想值,藉此推估母體的物種數。
  • 參數法:若已知母體中各物種的數量分布,便能依照採樣方法的特性,以各物種的數量當參數建立模型,預測觀察到的物種比例。應用參數法須假設母體符合特定的分布,再將樣本資料帶入預測模型中回推參數,繼而統計母體物種數。

應用曲線配適法和參數法的前提是有足夠的樣本以選擇適當的物種累積曲線及數量分布。然而既有資料可能因吻合許多模型而有不同的估計值,即使藉著增加樣本數以區別不同的模型,也可能因過度擬合(overfitting)導致無法正確估計未觀察到的物種數量。

因此微生物多樣性分析多半以無參數法估計母體物種數。曲線配適法則較常用於資料處理和品質管控階段,判斷樣本是否代表母體,並且評估提升樣本代表性需要額外投入多少成本,例如增加定序深度或是擴大採樣面積等。

無參數法不須假設母體符合特定分布,也不借重模型描述樣本資訊。方法的假設是採集時通常能採集到常見物種(common species),所以樣本與母體的物種數差異在於稀有物種的數量(rare species),藉由樣本中不同程度的稀有物種之間的比例便能推算還有多少沒發現的物種,進而推論母體物種數。換言之,無參數法的各項指標是參照樣本中稀有物種的數量對於觀測值的校正。
$Richness\ index = S_{obs} + S_{est}$
$S_{obs}$:樣本中觀察到的物種數
$S_{est}$:未觀察到的物種數的估計值

以下介紹清華大學的趙蓮菊老師發展的 Chao1 和 ACE 物種豐富度指標,兩者皆為為生物多樣性分析常用的方法。

OTU richness

$S_{otu} = S_{obs}$
$S_{otu}$:母體物種數的 OTU richness 估計值
$S_{obs}$:樣本物種數

採集不全面的時候若不修正觀測值,樣本物種數往往小於母體物種數。

Chao1 

$S_{Chao1} =\begin{cases} S_{obs} + \frac{{f_1}^2}{2f_2},\qquad if \ f_2>0\\S_{obs} + \frac{f_1(f_1-1)}{2},\qquad if \ f_2=0\end{cases}$
$S_{Chao1}$:母體物種數的 Chao1 估計值
$S_{obs}$:樣本物種數
$f_1$:樣本中僅觀察到一次的物種數
$f_2$:樣本中恰好觀察到兩次的物種數

首先定義稀有物種為樣本中僅出現一次和兩次的物種(singleton & doubleton species),且重複採集到稀有物種的機率很低。Chao1 的意涵是,在採集時如果還有未觀察到的物種,那麼過程中將持續發現新的物種。由於重複採集的機率很低,所以一旦樣本中所有物種都採集到兩次以上,代表已經沒有待發現的物種了。基於這項關係,樣本內 singleton 和 doubleton 的比例可以反映未觀察到的物種數:比值愈高,待發現的物種越多,估計值也越大。

由於 Chao1 僅採計 singleton 和 doubleton ,而且計算的是理論的下限值,因此在母體數量分布極度右偏且稀有物種數量均勻的群集中表現較佳。

ACE (Abundance-based Coverage Estimator)

$S_{ACE}=S_{com}+\frac{S_{rare}}{C_{ACE}}+\frac{f_1}{C_{ACE}}γ_{ACE}^2$
where,
$γ_{ACE}=max\left[\frac{S_{rare}}{C_{ACE}}\frac{\sum_{k=1}^{10}k(k-1)f_k}{(n_{rare})(n_{rare}-1)}-1,0\right]$ 
$S_{rare}=\sum_{k=1}^{10}f_k$
$S_{com}=\sum_{k=11}^{S_{obs}}f_k$
$n_{rare}=\sum_{k=1}^{10}kf_k$ 
$C_{ACE}=1-\frac{f_1}{n_{rare}}$
$S_{ACE}$:母體物種數量的 ACE 估計值
$γ_{ACE}$:變異係數,估算不同物種的發現率
$S_{obs}$:樣本物種數
$S_{rare}$:樣本中觀察到的數量小於或等於 10 的稀有物種數
$S_{abund}$:樣本中觀察到的數量大於 10 的常見物種數
$n_{rare}$:稀有物種的總數
$f_1$:樣本中僅觀察到一次的物種數
$C_{ACE}$:樣本覆蓋率的估計量,僅觀察到一次的物種數量佔稀缺物種的比例

二、物種多樣性指數


Shannon-Wiener's Diversity Index 

$H=-\sum_{i=1}^{S}p_i \ln p_i$
H:Shannon-Wiener's Diversity Index
$S$:群集物種數
$p_i$:群集中屬於第 i 種物種的個體比例,亦即該族群個體數量除以群集規模

Shannon-Wiener's 多樣性指標借鑑資訊熵(information entropy)的概念,以抽樣過程中對於抽得個體所屬物種的不確定性代表生物多樣性。指標的數值越高,不確定性愈大,多樣性愈高。

當群集中各物種個體數一致的時候($p_i=1/S$),指標有最大值$\ln S$;而當群集中僅有一物種時($p_i=1$,即$\ln p_i=0$),指標有最小值$0$。這兩項結果表示,Shannon-Wiener's 多樣性指標同時考量物種數和物種均勻度,愈豐富均勻的群集,指標數值愈高,也就具有較高的多樣性。

Simpson's Diversity Index

$D=\sum_{i=1}^S \left(\frac{n_i}{N}\right)^2 $ or $\sum_{i=1}^S \frac{n_i(n_i-1)}{N(N-1)}$
$D$:Simpson's Index
$S$:群集物種數量
$n_i$:群集中第 i 族群的個體數量
$N$:群集規模

假設從多樣性極低的群集隨機抽取兩個體,因為物種數稀少或數量不均,很有可能抽到相同物種;反之,多樣性較高的群集則較不容易抽到同物種。基於這項概念,Simpson's index 的公式計算任兩個體屬於同一物種的機率之和以評估群集的多樣性。此公式依據抽樣方式分為取後放回或是取後不放回兩種形式,兩者的數值在樣本數量夠大的情況下一致。

Simpson's index 的範圍從 0 到 1 ,其數值大小和多樣性負相關。當群集中僅有一物種時($S=1$),該物種的個體數量便等同群集的個體數量($N=n_1$),得Simpson's index為 1 ,意味著最低的多樣性。
$D=\sum_{i=1}^S \left(\frac{n_i}{N}\right)^2 =\sum_{i=1}^1 \left(\frac{n_i}{n_1}\right)^2 = \left(\frac{n_1}{n_1}\right)^2=1$
當群集中各物種數量一致($n_i=n$, $N=nS$)且具有無限種物種時($S=∞$),得Simpson's index 為 0 ,意味著最高的多樣性。
$D=\lim_{S \to \infty}\sum_{i=1}^S \left(\frac{n_i}{N}\right)^2 =\lim_{S \to \infty}\sum_{i=1}^S \left(\frac{n}{nS}\right)^2 = lim_{S \to \infty}\sum_{i=1}^S\left(\frac{1}{S}\right)^2=\lim_{S \to \infty}\frac{1}{S^2}\sum_{i=1}^S1=
\lim_{S \to \infty}\left(\frac{1}{S^2}\right)S=\lim_{S \to \infty}\frac{1}{S}=0$
這兩個例子說明了,Simpson's index 的數值同時考量物種豐富度和物種均勻度,愈豐富均勻的樣本具有越低的 Simpson's index 值,也就具有較高的多樣性。

由於 Simpson's index 和多樣性的關係不直觀,所以額外定義了 Simpson's index 的補集機率(Gini–Simpson index, 1 - D)和倒數(Simpson's Reciprocal index, 1 / D),兩者的數值皆與多樣性正相關。其中 Gini–Simpson index 的數值仍介於 0 到 1 ,其含意是從群集中抽選兩異種個體的機率。至於Simpson's Reciprocal Index 的數值則從 1 到群集物種數量$S$,因為指標達最大值時,群集各物種的個體數量一致($n_i=n$)而且群集個體總數$N = nS$,故原式可化簡成:
$1 / D=\frac{1}{\sum_{i=1}^S \left(\frac{n_i}{N}\right)^2}=\frac{1}{\sum_{i=1}^S \left(\frac{n}{nS}\right)^2}=\frac{1}{\sum_{i=1}^S \left(\frac{1}{S}\right)^2}=\frac{1}{S \left(\frac{1}{S^2}\right)}=\frac{1}{\left(\frac{1}{S}\right)}=S$

比較 Shannon-Wiener's Diversity Index 和 Simpson's Diversity Index


Shannon-Wiener's 指標和 Simpson's 指標皆考量了物種數和均勻度,但兩者側重的方向不同。

在 Shannon-Wiener's 指標中,每一種物種對於多樣性的貢獻值為 $-p_i \ln p_i$。因為物種個體數的比例小於等於 $1$($0 \leq p_i\leq 1$),所以 $\ln p_i \leq0$ , $-\ln p_i$ 隨 $p_i$ 變小而遞增。這表示 Shannon-Wiener's 指標會拉高稀有物種($p_i$ 值小)的影響,降低常見物種($p_i$值大)的貢獻,校正原始群集中較不均勻的物種數量分布。因此,Shannon-Wiener's 指標對群集的物種數比對群集的物種均勻度敏感。

而在 Simpson's 指標中,稀有物種與常見物種的差距卻因為公式中的平方擴大。由於稀有物種攸關群集物種數的估計,降低其對多樣性的影響導致 Simpson's 指標對群集的物種數比對群集的物種均勻度遲鈍。

綜上所述,Shannon-Wiener's 指標側重物種數, Simpson's 指標側重均勻度,指標的運用則視研究者需求而定。

參考資料




沒有留言:

張貼留言