2020年2月5日 星期三

UniFrac distance 的優缺點是什麼?

本文簡介 UniFrac 的意義與計算方式,並以其他文獻補充 Robert Edgar 對 UniFrac 的評論


一、UniFrac distance 是什麼?


1. UniFrac 簡介


UniFrac (Unique Fraction distance) 是基於系統發生距離的 β 多樣性指標,群集間各族群的系統發生距離愈遠,表示兩群集的差異愈大, β 多樣性也愈高。UniFrac 得用以計算不同環境的微生物相差異,或是觀察干擾前後的轉變。

由於度量 UniFrac 的單位是標的基因序列(例如:16S rRNA 變異區),所以能迴避微生物模糊的物種概念。此外,序列差異與微生物的表徵有關。因此,相較於對不同序列等量齊觀的分類基礎指標 (taxon-based metrics),採計序列歧異度的 UniFrac 能充分利用每個鹼基的資訊。

2.  Unweighted UniFrac


依據採計族群規模與否,UniFrac distance 可分為 unweighted UniFrac(不採計)和 weighted UniFrac(採計)。unweighted UniFrac 可直觀地理解為,系統發生樹被單一群集獨佔的比率。獨占枝長的比率愈多,表示兩群集成員的親緣關係愈遠,群集間的差異也愈大。

unweighted UniFrac 的計算可簡化為:(1) 標註系統發生樹上各枝所屬群集,(2) 計算獨佔枝長和總枝長的比值。

3. Weighted UniFrac


然而,優勢物種和稀有物種在生態學上的含義不同,如果某共享枝底下兩群集的成員比例懸殊,或許要採計族群規模以發現群集間的定量差異。因此 weighted UniFrac 依照兩群集成員的相對數量差異,量化每條枝的獨佔程度。

幾何圖形的數量代表物種於該樣本的族群規模。雖然紅方塊和綠圈圈的群集組成不同,但兩者的 unweighted UniFrac 為零。但細查後發現,紅方塊在系統發生樹左側的比例較高,而綠圈圈在右側的比例較。加總各枝對 β 多樣性的貢獻得出兩者的 weighted UniFrac 為 0.11。

二、UniFrac distance 有什麼前提與含義?


1. UniFrac 的前提是 16S rRNA 序列相似度與微生物的生態棲位相關


處於相異環境的族群會受不同的選擇壓力而逐漸分歧。環境差異愈大,族群間隔閡愈深,累積的遺傳差異也愈多。依此假設,兩族群在系統發生樹上的距離,反映了它們的生態棲位差距。

在 UniFrac 這類歧異度指標當中 (divergence-based metric),群集差異由其中的族群相異程度而定。群集成員的生態棲位差異愈大,則群集間的 β 多樣性也愈高。基於用 16S rRNA 重建的系統發生樹,UniFrac 的數值意味著不同微生物群集的適應性特徵差異。

2. 然而,UniFrac 的前提不盡合理


然而,16S rRNA 之所以被選為分類鑑定的基因,正是因為它是核醣體的部件,攸關個體存續,所以在演化中的改變幅度較小。因此,16S rRNA 應該與微生物在特定環境的適存度較無關聯。

其次,頻繁的水平基因移轉使得微生物除了不可或缺的核心基因體 (core genome) 外,還附帶功能多樣的基因體 (accessory genome)。這些附帶基因體的組成多變且易受環境影響,所以即使某物種具有相同的核心基因體,也可能因為具有不同的附帶基因體,而表現出迥然不同的特性。

鑒於核心基因 的穩定性和水平基因移轉的多變性,以 16S rRNA 建立的系統發生樹能否忠實反映微生物的生態棲位便很可議了。

3. 此外,UniFrac 的衍伸意義模糊


因此 UniFrac 其實只反映了群集在 16S rRNA 以及與其密切相關之基因的差異,無法將解釋推廣到包含水平基因移轉在內的其餘基因體。儘管 Lozupone & Rob Knight (2008) (UniFrac 開發者)主張,UniFrac 提供的資訊仍多過只基於分類而不考慮序列相似度的指標。

但究竟有多少基因與 16S rRNA 連鎖,使用者的推論能衍伸到什麼程度,也不是單從 UniFrac 可以得知。因此,即使 UniFrac 是量化的 β 多樣性指標,其延伸含義的解釋空間仍然很模糊。


三、使用 UniFrac 對分析結果有何影響?


1. 不同的多樣性指標賦予序列不同權重


若不論生態學意義,其實各項多樣性指標都用了不同手段來壓低偽序列的影響。以採用定量資料的指標為例,由於樣本內的稀有序列往往是建庫或定序時引入的偽序列,所以這些指標賦予稀有序列較低的權重,以免偽序列誇大多樣性的估計值。

除了數量,核酸序列亦是判斷偽序列的依據。在品質較好的資料裡,偽序列往往與正確序列只有幾個鹼基差異。然而,若使用 Jaccard distance 或 Bray-Curtis dissmilarity 等以分類為基礎的 β 多樣性指標,會把微量差異視為獨立序列,以致於深受資料品質影響。

2. UniFrac 能緩衝技術誤差的影響


相較之下,UniFrac distance 採計序列的差異。相似序列對 β 多樣性的貢獻少,歧異序列對 β 多樣性的貢獻大,所以較能容忍定序過程中引進的誤判,或是雙端定序合併時造成的長度不一。因此,當研究迥異的環境微生物,或是僅有低品質的資料時,UniFrac 能緩衝干擾與技術誤差的影響。

3. UniFrac distance 會壓低組間差異


不過,前述特性也降低了 UniFrac 的靈敏度。當 (1) 環境差異不大,選擇壓力沒有體現在微生物的基因體,或是 (2) 資料品質優良,建庫和定序誤差的衝擊微弱時,UniFrac 這樣保守的策略會降低發現組間差異的機會。


四、UniFrac 的優缺點是什麼?  


綜上所述,UniFrac 的優點是能充分利用標的基因的資訊,推論群集間各族群的生態棲位差異。此外,由於UniFrac 的數值依序列相似度加權,所以能緩衝技術誤差的影響。然而 UniFrac 的衍伸含義模糊,而且靈敏度較低,所以 Edgar 建議以直觀的 Bray-Curtis dissimilarity 取代 UniFrac。

可是 Bray-Curtis dissimilarity 雖然容易理解,它卻屬於非度量指標 (non-metric),也深受採樣不均影響。是以,各項指標皆有其優劣和適用條件,不同的指標能反映群集的不同特性,得協助我們了解研究對象的全貌。

何況實際研究時,往往無法在事前得知哪些方法有效,而是測試不同指標後才找到值得關注的現象。所以我認為,在欠缺研究脈絡的情況下執著於特定指標,是放棄發現新關聯的機會。

比起選擇方法,我相信更重要的是詮釋(如前所述,方法沒得挑,總是有什麼都拿來試試看)。其實在 Edgar 的文章也不斷強調,要區分指標數值和其衍伸含義。在標的基因分析裡,各項指標依據的不是微生物群、不是細菌、甚至不是核酸本身,而是定序後獲得的鹼基序列。

無論是物種觀念、親緣關係還是代謝功能分析,都是基於理論由序列推論出生物含義。隨著嵌套的假設增加,指標含義也愈趨複雜,以至於結果難以詮釋、容易誤解或不易檢驗。

因此,即便想使用 UniFrac 這類涵蓋系統發生資訊的指標,也要從最直觀的指標著手,才有衡量複雜指標的基線。掌握最底層的序列含義後,才不至於把推論建立在虛妄的根基。


五、參考資料


Betadiversity OTU picking vs. non OTU picking (DADA2). Qiime2 forum. (Accessed Feb 5, 2020)

C. Lozupone and R. Knight. (2005) UniFrac: a New Phylogenetic Method for Comparing Microbial Communities. Appl Environ Microbiol.

C. Lozupone and R. Knight. (2008) Species Divergence and the Measurement of Microbial Diversity. FEMS Microbiol Rev.

J. Prosser et al. (2007) The role of ecological theory in microbial ecology. Nat Rev Microbiol.

Why use UniFrac? Uearch. (Accessed Feb 2, 2020)

Does it make sense to use weighted unifrac distances for 16s data? Qiime2 forum. (Accessed Feb 2, 2020)


3 則留言:

  1. 覺得你好厲害!!!超棒的整理 感謝分享

    回覆刪除
  2. 覺得你好厲害!!!超棒的整理 感謝分享

    回覆刪除
    回覆
    1. 謝謝你,如果對內容有任何疑問,除了查閱以下參考文獻以外,也歡迎直接連絡我。

      本文對於 UniFrac 的解釋和理論背景參考指標發明者的論文:
      1. C. Lozupone and R. Knight. (2005) UniFrac: a New Phylogenetic Method for Comparing Microbial Communities. Appl Environ Microbiol.
      2. C. Lozupone and R. Knight. (2008) Species Divergence and the Measurement of Microbial Diversity. FEMS Microbiol Rev.

      本文關於 UniFrac 前提有疑慮且靈敏度不足的解釋延伸自 Edgar 的評論:
      Why use UniFrac? (https://drive5.com/usearch/manual/unifrac_comments.html)

      核心基因體 (core genome) 和附帶基因體 (accessory genome) 之別:
      J. Prosser et al. (2007) The role of ecological theory in microbial ecology. Nat Rev Microbiol.

      至於為什麼 UniFrac 屬於 phylogenetic analysis 可參考:
      1. Does it make sense to use weighted unifrac distances for 16s data? (https://forum.qiime2.org/t/does-it-make-sense-to-use-weighted-unifrac-distances-for-16s-data/12768/2)
      2. Betadiversity OTU picking vs. non OTU picking (DADA2) (https://forum.qiime2.org/t/does-it-make-sense-to-use-weighted-unifrac-distances-for-16s-data/12768/2)

      刪除