盛夏不等式: 分析到最後還是不能只靠 QIIME2

分析到最後還是不能只靠 QIIME2

目前， QIIME2 和 mothur 等終端工具能支持16S rRNA 基因分析的許多步驟，例如原始序列處理和多樣性分析；而 MicrobiomeAnalyst 和 MG-RAST 等線上分析平台甚至不需要程式功底，只要依照指示輸入資料，便能產出附帶統計檢定的美化圖表。

我剛開始學微生物分析的時候認為，解決研究問題比排除技術障礙重要，與其陷入程式與演算法的泥沼，不如先用套裝軟體得到初步結果，等到有新想法時再用其他語言實踐。然而在嘗試各種套裝軟體之後發現，分析到最後還是得靠 R 或 Python 等語言才能滿足多變的分析需求。

以 QIIME2 為例，它的特性是整合了標的基因分析的資料前處理步驟，並納入多樣的分析模組供使用者挑選。這些功能對採取標準作業流程的定序公司，或是能產出數據的實驗團隊應該足夠，但不適合基於公開資料庫的純生物資訊研究，原因如下：

由於 QIIME2 提供的多樣性分析、排序分析和差異豐度分析是總基因體學分析的基本要素（參考：一文讀懂宏基因組分析套路），所以公開數據的提供者通常已在自己的文章中紀錄這些分析的結果。是以，只用 QIIME2 提供的功能可能沒辦法從公開數據中找到足供發表的新發現。

為了實踐分析模組化和研究重複性，QIIME2 犧牲了操作的彈性，例如把所有分析檔案封裝在特有的「.qza/.qzv」檔，也限制了輸出入的文件格式。然而在探索階段，常要測試不同分組與特定生態指標的關係，但 QIIME2 沒有資料清理的套件，所以每次分析都要重複「修改實驗設計表、修改指令、執行 QIIME2 套件、輸出視覺化檔案、上傳 QIIME2 VIEW 察看結果」等繁瑣的步驟。即使用腳本整合各個環節，分析過程中產出的大量檔案也很讓人頭痛。

此外，QIIME2 可用的圖表有限而且無法修改美學映射和視覺屬性，所以即使內建圖表很精緻，還是得在 R 或 Python 尋找替代方案。

綜上所述，我認為這類套裝軟體適合處理標準化的分析流程，但不適合探索式資料分析。換句話說，如果覺得跑一遍分析就足以取得可供發表的結果，那便適合使用套裝軟體。反之，如果得多方嘗試各種分析手段才有機會找到有價值的資訊，那麼使用套裝軟體不僅費時費工，還可能沒有斬獲。

沒有留言:

張貼留言

訂閱：張貼留言 (Atom)

Back to top