2020年4月14日 星期二

分析到最後還是不能只靠 QIIME2

目前, QIIME2 和 mothur 等終端工具能支持16S rRNA 基因分析的許多步驟,例如原始序列處理和多樣性分析;而 MicrobiomeAnalyst 和 MG-RAST 等線上分析平台甚至不需要程式功底,只要依照指示輸入資料,便能產出附帶統計檢定的美化圖表。

我剛開始學微生物分析的時候認為,解決研究問題比排除技術障礙重要,與其陷入程式與演算法的泥沼,不如先用套裝軟體得到初步結果,等到有新想法時再用其他語言實踐。然而在嘗試各種套裝軟體之後發現,分析到最後還是得靠 R 或 Python 等語言才能滿足多變的分析需求。

以 QIIME2 為例,它的特性是整合了標的基因分析的資料前處理步驟,並納入多樣的分析模組供使用者挑選。這些功能對採取標準作業流程的定序公司,或是能產出數據的實驗團隊應該足夠,但不適合基於公開資料庫的純生物資訊研究,原因如下:
  1. 由於 QIIME2 提供的多樣性分析、排序分析和差異豐度分析是總基因體學分析的基本要素(參考:一文讀懂宏基因組分析套路),所以公開數據的提供者通常已在自己的文章中紀錄這些分析的結果。是以,只用 QIIME2 提供的功能可能沒辦法從公開數據中找到足供發表的新發現。
  1. 為了實踐分析模組化和研究重複性,QIIME2 犧牲了操作的彈性,例如把所有分析檔案封裝在特有的「.qza/.qzv」檔,也限制了輸出入的文件格式。然而在探索階段,常要測試不同分組與特定生態指標的關係,但 QIIME2 沒有資料清理的套件,所以每次分析都要重複「修改實驗設計表、修改指令、執行 QIIME2 套件、輸出視覺化檔案、上傳 QIIME2 VIEW 察看結果」等繁瑣的步驟。即使用腳本整合各個環節,分析過程中產出的大量檔案也很讓人頭痛。
  1. 此外,QIIME2 可用的圖表有限而且無法修改美學映射和視覺屬性,所以即使內建圖表很精緻,還是得在 R 或 Python 尋找替代方案。
綜上所述,我認為這類套裝軟體適合處理標準化的分析流程 ,但不適合探索式資料分析。換句話說,如果覺得跑一遍分析就足以取得可供發表的結果,那便適合使用套裝軟體。反之,如果得多方嘗試各種分析手段才有機會找到有價值的資訊,那麼使用套裝軟體不僅費時費工,還可能沒有斬獲。

沒有留言:

張貼留言