怎麼處理 16S rRNA 標的基因分析中長度不一的序列?

在標識基因分析中,會以引子 (primer) 鎖定目標基因兩端的保守區,以截獲其中可提供分類資訊的變異區。例如由 Caporaso et al (2012) 設計,常用於研究人體腸道微生物的 515F/806R 引子,便能擴增 16S rRNA 的 V4 變異區,獲得長度約為 253 bp 的序列(順向擴增起點座標 - 逆向擴增起點座標 +1 - 順向引子長度 - 逆向引子長度 (806 - 515 + 1 - 19 -20 = 253 bp) )。

僅憑印象判斷,可能會以為16S rRNA V4 區域兩端的保守區間距變化不大,所以引子擴增出的序列應具有相似長度,但實際上並非如此。下圖為 DIABIMMUNE 計畫,嬰兒腸道微生物 16S rRNA V4 區域的擴增結果。雖然多數的序列集中在 253 bp,但周圍仍有長度從 37 bp 到 258 bp 的序列。

這張圖中呈現的資料已經事先經過許多處理,所以不是原始資料的長度分布。但我想以此圖說明,即使是從保守區擴增出來的片段,也不會只有一種長度。

這些長度不一的序列可能是具有生物含義的正確序列,也可能是定序和建庫過程中產生的偽序列,亦或是資料處理時引進的誤差。由於長度不一有許多成因,所以資料處理的方式也因成因而異。

此外,不同的標的基因分析流程對於序列有不同的要求,所以處理這些序列的方式也因研究議題和採用的工具而異。例如,使用 Deblur(將序列降噪為 ASVs 的工具)和 UPARSE(將序列聚類為 OTUs 的工具)等要求輸入序列長度一致的演算法時,便得在資料前處理階段統一裁切樣本中的序列;但使用 DADA2(另一種將序列降噪為 ASVs 的工具)則可省略此步。

然而,無論採取何種方法,由於多數序列的長度集中在特定範圍,序列長度在 16S rRNA 分析中可以作為判斷序列可信度的依據,透過移除極端長度者能排除偽序列或汙染序列的影響。


為什麼 Illumina 平台的定序品質在序列前端和末端較差?

下圖是 Miseq 平台的定序品質報告結果,本文簡介為什麼品質平均分數呈現中間高且兩端低的分布模式。

各鹼基的平均品質分數在最初月十五個鹼基長處驟升,之後隨長度遞減


以梯度圖實踐三項連續變數的資料視覺化

本文簡介怎麼用 ggplot2 套件以下圖的方式表示三項連續變數關係。

Jiao 利用這三張圖展示了林木周圍不同深度和半徑的土壤微生物多樣性變化。左:細菌,中:古菌,右:真菌。Jiao et al. (2017). Soil microbiomes with distinct assemblies through vertical soil profiles drive the cycling of multiple nutrients in reforested ecosystems. Microbiome.

全基因體關聯分析簡介(Genome-wide association studies)

全基因體關聯分析 (Genome-wide association studies, GWAS) 是透過比較性狀組和控制組的基因差異來揭示性狀與基因的關係。具體的方式是從遍布基因體的分子標記(例如:SNPs、RFLPs、STR)中篩選出與疾病高度相關者,基於其與致病基因的連鎖不平衡,獲得可能涵蓋致病基因的基因片段供後續分析。

Nat Rev Microbiol.:生態學理論在微生物生態學扮演的角色



微生物生態學需要用理論統整新科技產生的海量資訊,建立取代經驗(empiricism and intuition)的預測模型,以發揮其應用價值。

科技進步是雙面刃,雖然 16s rRNA 擴增定序、全基因體分析、全轉錄體分析等高通量手法能補足以培養為基礎的方法之不足,然而得出的大量數據有時反而迷惑了研究者。因此作者認為目前阻礙微生物生態學進步的關鍵不在於科技瓶頸,而是缺乏理論框架解讀資料。

作者說明借鑑既有的動植物生態學理論是最佳且可行的方式,一方面可以用以統整資料,另一方面也能在微生物界檢驗既有理論,甚至能從快速生長、大生物量、無性繁殖的獨特群集屬性中發展出新的理論。建立理論後,決策者就能減少依賴應用範圍侷限的經驗和直覺,可以利用理論預測現象並提出解決辦法。

此文一方面論證應用既有生態理論的必要,另一方面也指出可能的研究方向和困難。可以用於答辯「為何要應用生態理論」或是思考研究題目。文中所提的可應用生態學理論的研究方向可分為三種:
  • 群集生態學:群集組成內容、群集多樣性與環境、能量、時間的關聯
  • 行為生態學:物種生殖策略、競爭策略
  • 時間關聯:活動力變化、空間分布
美中不足是沒有提到生態交互作用網路,需要其他文獻補充。


Curr Opin Biotechnol.:整合微型化全細胞活菌感測器於可實際運用的自動化裝置

雖然是針對偵測環境汙染的生物感測器,但實際上是在說明任何生物感測器都該注意的地方。


全細胞生物感測器(biosensor)是以微生物偵測分子,轉換為電子元件可接收的訊號後,再由電子元件分析以及統整供使用者查閱的裝置。在環境污染的情境下有兩種發展方向,首先是定期定點蒐集並分析樣本,因為採用更龐大複雜的器械,所以可以取得較精準的資料。然而因為取樣分析的手續較繁複,因此不易得到即時的資訊。另一方面,可以壓縮分析的時間和範圍,濃縮生物感測器的體積到容許裝載在可攜式平台,即時監測周遭環境。作者回顧可攜式平台的現況、發展與限制。

生物感測器的先天性限制是對於各類目標分子的偵測專一性不一,有些反應迴路僅能監測特定種類分子而非特定分子,所以偵測結果要和已知結果校正;而且生物感測器必須解決背景雜訊問題,這些問題都要在不影響感測器應用範圍的條件下解決(例如最好不要增加體積或是操作手續)。

要解決訊號的問題又有兩種策略,第一種是增加訊號強度,第二種是降低背景值。增加訊號強度可以藉由調整反應類型或是增加反應時間辦到,然而如果增加反應時間就會降低生物感測器的即時監測能力。其中一項解決辦法就是改變生物反應類型,目前生物感測器多半採取基因迴路控制來反應外界變化,然而這需要等候基因作用,於是研究者提出了替代方案,以偵測化學反應取代偵測基因表現,例如偵測細胞運動、細胞內胞器位置差異、離子濃度等方式。

降低背景值可以安裝校正參照組解決,不過這也會增加體積,或是可以發展連續測試以解決此問題。


分析到最後還是不能只靠 QIIME2

目前, QIIME2 和 mothur 等終端工具能支持16S rRNA 基因分析的許多步驟,例如原始序列處理和多樣性分析;而 MicrobiomeAnalyst 和 MG-RAST 等線上分析平台甚至不需要程式功底,只要依照指示輸入資料,便能產出附帶統計檢定的美化圖表。

我剛開始學微生物分析的時候認為,解決研究問題比排除技術障礙重要,與其陷入程式與演算法的泥沼,不如先用套裝軟體得到初步結果,等到有新想法時再用其他語言實踐。然而在嘗試各種套裝軟體之後發現,分析到最後還是得靠 R 或 Python 等語言才能滿足多變的分析需求。

以 QIIME2 為例,它的特性是整合了標的基因分析的資料前處理步驟,並納入多樣的分析模組供使用者挑選。這些功能對採取標準作業流程的定序公司,或是能產出數據的實驗團隊應該足夠,但不適合基於公開資料庫的純生物資訊研究,原因如下:
  1. 由於 QIIME2 提供的多樣性分析、排序分析和差異豐度分析是總基因體學分析的基本要素(參考:一文讀懂宏基因組分析套路),所以公開數據的提供者通常已在自己的文章中紀錄這些分析的結果。是以,只用 QIIME2 提供的功能可能沒辦法從公開數據中找到足供發表的新發現。
  1. 為了實踐分析模組化和研究重複性,QIIME2 犧牲了操作的彈性,例如把所有分析檔案封裝在特有的「.qza/.qzv」檔,也限制了輸出入的文件格式。然而在探索階段,常要測試不同分組與特定生態指標的關係,但 QIIME2 沒有資料清理的套件,所以每次分析都要重複「修改實驗設計表、修改指令、執行 QIIME2 套件、輸出視覺化檔案、上傳 QIIME2 VIEW 察看結果」等繁瑣的步驟。即使用腳本整合各個環節,分析過程中產出的大量檔案也很讓人頭痛。
  1. 此外,QIIME2 可用的圖表有限而且無法修改美學映射和視覺屬性,所以即使內建圖表很精緻,還是得在 R 或 Python 尋找替代方案。
綜上所述,我認為這類套裝軟體適合處理標準化的分析流程 ,但不適合探索式資料分析。換句話說,如果覺得跑一遍分析就足以取得可供發表的結果,那便適合使用套裝軟體。反之,如果得多方嘗試各種分析手段才有機會找到有價值的資訊,那麼使用套裝軟體不僅費時費工,還可能沒有斬獲。

Back to top